Únase a los líderes en San Francisco el 10 de enero para una noche exclusiva de networking, conocimientos y conversaciones. Solicite una invitación aquí. El cambio de la industria hacia la implementación de modelos de IA más pequeños, más especializados y, por lo tanto, más eficientes refleja una transformación que hemos presenciado anteriormente en el mundo del hardware. Es decir, la adopción de unidades de procesamiento de gráficos (GPU), unidades de procesamiento tensorial (TPU) y otros aceleradores de hardware como medio para lograr una informática más eficiente. Hay una explicación sencilla para ambos casos y todo se reduce a la física. Las CPU se construyeron como motores informáticos generales diseñados para ejecutar tareas de procesamiento arbitrarias, desde ordenar datos hasta realizar cálculos y controlar dispositivos externos. Manejan una amplia gama de patrones de acceso a la memoria, operaciones informáticas y flujo de control. Sin embargo, esta generalidad tiene un costo. Dado que los componentes de hardware de la CPU admiten una amplia gama de tareas y decisiones sobre lo que el procesador debería hacer en un momento dado, lo que exige más silicio para los circuitos, energía para alimentarlos y, por supuesto, tiempo para ejecutar esas operaciones. Evento VB The AI ​​Impact Tour Cómo llegar a un plan de gobernanza de AI: solicite una invitación para el evento del 10 de enero. Más información Esta compensación, si bien ofrece versatilidad, reduce inherentemente la eficiencia. Esto explica directamente por qué la informática especializada se ha convertido cada vez más en la norma en los últimos 10 a 15 años. GPU, TPU, NPU, oh Dios. Hoy en día no se puede tener una conversación sobre IA sin ver menciones de GPU, TPU, NPU y diversas formas de motores de hardware de IA. Estos motores especializados son, esperen, menos generalizados, lo que significa que realizan menos tareas que una CPU, pero como son menos generales son mucho más eficientes. Dedican más transistores y energía a realizar cálculos reales y acceso a datos dedicados a la tarea en cuestión, con menos apoyo dedicado a tareas generales (y las diversas decisiones asociadas con qué calcular/acceder en un momento dado). Debido a que son mucho más simples y económicos, un sistema puede permitirse el lujo de tener muchos más motores de cómputo trabajando en paralelo y, por lo tanto, realizar más operaciones por unidad de tiempo y unidad de energía. El cambio paralelo en los grandes modelos de lenguajes Se está desarrollando una evolución paralela en el ámbito de los grandes modelos de lenguajes (LLM). Al igual que las CPU, los modelos generales como el GPT-4 son impresionantes por su generalidad y capacidad para realizar tareas sorprendentemente complejas. Pero esa generalidad también proviene invariablemente de un costo en número de parámetros (se rumorea que es del orden de billones de parámetros en todo el conjunto de modelos) y el costo asociado de acceso a la memoria y la computación para evaluar todas las operaciones necesarias para la inferencia. Esto ha dado lugar a modelos especializados como CodeLlama que pueden realizar tareas de codificación con buena precisión (potencialmente incluso mejor) pero a un costo mucho menor. Otro ejemplo, Llama-2-7B puede realizar bien tareas típicas de manipulación del lenguaje, como la extracción de entidades, y también a un costo mucho menor. Mistral, Zephyr y otros son modelos más pequeños capaces. Esta tendencia refleja el cambio de la dependencia exclusiva de las CPU a un enfoque híbrido que incorpora motores informáticos especializados como las GPU en los sistemas modernos. Las GPU destacan en tareas que requieren procesamiento paralelo de operaciones más simples, como IA, simulaciones y representación de gráficos, que constituyen la mayor parte de los requisitos informáticos en estos dominios. Las operaciones más simples exigen menos electrones En el mundo de los LLM, el futuro radica en implementar una multitud de modelos más simples para la mayoría de las tareas de IA, reservando los modelos más grandes y que requieren más recursos para tareas que realmente necesitan sus capacidades. Y afortunadamente, muchas aplicaciones empresariales, como la manipulación de datos no estructurados, la clasificación de texto, el resumen y otras, se pueden realizar con modelos más pequeños y especializados. El principio subyacente es sencillo: las operaciones más simples exigen menos electrones, lo que se traduce en una mayor eficiencia energética. Esta no es sólo una elección tecnológica; es un imperativo dictado por los principios fundamentales de la física. Por lo tanto, el futuro de la IA no depende de la construcción de modelos generales cada vez más grandes, sino de aprovechar el poder de la especialización para lograr soluciones de IA sostenibles, escalables y eficientes. Luis Ceze es director ejecutivo de OctoML. DataDecisionMakers ¡Bienvenido a la comunidad VentureBeat! DataDecisionMakers es el lugar donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir conocimientos e innovación relacionados con los datos. Si desea leer sobre ideas de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers. ¡Incluso podrías considerar contribuir con un artículo propio! Leer más de DataDecisionMakers

Source link