Todo lo que necesitas saber sobre tecnología

Etiqueta: llms

Nvidia conquista las últimas pruebas de inteligencia artificial

Nvidia conquista las últimas pruebas de inteligencia artificial


Durante años, Nvidia ha dominado muchos puntos de referencia de aprendizaje automático, y ahora tiene dos muescas más en su haber.MLPerf, la suite de evaluación comparativa de IA a veces llamada «las Olimpíadas del aprendizaje automático», ha lanzado un nuevo conjunto de pruebas de entrenamiento para ayudar a hacer más y mejores comparaciones entre sistemas informáticos competidores. Una de las nuevas pruebas de MLPerf se refiere al ajuste de grandes modelos de lenguaje, un proceso que toma un modelo entrenado existente y lo entrena un poco más con conocimiento especializado para hacerlo adecuado para un propósito particular. El otro es para redes neuronales gráficas, un tipo de aprendizaje automático detrás de algunas bases de datos bibliográficas, detección de fraude en sistemas financieros y redes sociales. Incluso con las adiciones y la participación de computadoras que utilizan los aceleradores de inteligencia artificial de Google e Intel, los sistemas impulsados ​​por la arquitectura Hopper de Nvidia dominó los resultados una vez más. Un sistema que incluía 11.616 GPU Nvidia H100 (la colección más grande hasta el momento) superó cada uno de los nueve puntos de referencia, estableciendo récords en cinco de ellos (incluidos los dos nuevos puntos de referencia). vas a mejorar”. —Dave Salvator, Nvidia El sistema 11,616-H100 es “el más grande que jamás hayamos creado”, dice Dave Salvator, director de productos de computación acelerada de Nvidia. Superó la prueba de entrenamiento GPT-3 en menos de 3,5 minutos. En comparación, un sistema de 512 GPU tardó unos 51 minutos. (Tenga en cuenta que la tarea GPT-3 no es una capacitación completa, que podría llevar semanas y costar millones de dólares. En cambio, las computadoras se entrenan con una parte representativa de los datos, en un punto acordado mucho antes de completarse). El mayor participante de Nvidia en GPT-3 el año pasado, una computadora H100 de 3.584, el resultado de 3,5 minutos representa una mejora de 3,2 veces. Se podría esperar eso solo por la diferencia en el tamaño de estos sistemas, pero en la informática de IA ese no es siempre el caso, explica Salvator. «Si simplemente le lanzamos hardware al problema, no es un hecho que vayamos a mejorar», afirma. «Estamos consiguiendo un escalamiento esencialmente lineal», afirma Salvatore. Con esto quiere decir que el doble de GPU lleva a un tiempo de entrenamiento reducido a la mitad. “[That] representa un gran logro de nuestros equipos de ingeniería”, añade. Los competidores también se están acercando al escalamiento lineal. En esta ronda, Intel implementó un sistema que utiliza 1.024 GPU que realizó la tarea GPT-3 en 67 minutos, en comparación con una computadora de un cuarto del tamaño que tomó 224 minutos hace seis meses. La entrada GPT-3 más grande de Google utilizó 12 veces la cantidad de aceleradores TPU v5p que su entrada más pequeña y realizó su tarea nueve veces más rápido. El escalado lineal será particularmente importante para las próximas «fábricas de IA» que albergarán 100.000 GPU o más, Salvatore dice. Dice que se espera que uno de esos centros de datos entre en funcionamiento este año y que otro, que utiliza la próxima arquitectura de Nvidia, Blackwell, se ponga en funcionamiento en 2025. La racha de Nvidia continúa. Nvidia continuó aumentando los tiempos de capacitación a pesar de usar la misma arquitectura, Hopper, como lo hizo el año pasado. resultados de formación del año. Todo esto se debe a mejoras de software, afirma Salvatore. “Por lo general, obtendremos un 2-2,5x [boost] del software después del lanzamiento de una nueva arquitectura”, dice. Para la capacitación de GPT-3, Nvidia registró una mejora del 27 por ciento con respecto a los puntos de referencia MLPerf de junio de 2023. Salvatore dice que hubo varios cambios de software detrás del impulso. Por ejemplo, los ingenieros de Nvidia ajustaron el uso de Hopper de operaciones de punto flotante de 8 bits menos precisas al recortar conversiones innecesarias entre números de 8 y 16 bits y determinar mejor qué capas de una red neuronal podrían usar el formato numérico de menor precisión. También encontraron una manera más inteligente de ajustar el presupuesto de energía de los motores de cómputo de cada chip y aceleraron la comunicación entre las GPU de una manera que Salvatore comparó con «untar mantequilla en la tostada mientras aún está en la tostadora». Además, la compañía implementó un esquema llamado llamar la atención. Inventada en el laboratorio de la Universidad de Stanford del fundador de Samba Nova, Chris Re, la atención flash es un algoritmo que acelera las redes de transformadores minimizando las escrituras en la memoria. Cuando apareció por primera vez en los puntos de referencia de MLPerf, la atención flash redujo hasta un 10 por ciento los tiempos de entrenamiento. (Intel también usó una versión de atención flash, pero no para GPT-3. En su lugar, usó el algoritmo para uno de los nuevos puntos de referencia, el ajuste fino). Usando otro software y trucos de red, Nvidia logró una aceleración del 80 por ciento en el prueba de conversión de texto a imagen, Stable Diffusion, frente a su presentación en noviembre de 2023. Nuevos puntos de referenciaMLPerf agrega nuevos puntos de referencia y actualiza los antiguos para seguir siendo relevante con lo que está sucediendo en la industria de la IA. Este año se agregó el ajuste fino y las redes neuronales gráficas. El ajuste fino requiere un LLM ya capacitado y lo especializa para su uso en un campo en particular. Nvidia, por ejemplo, tomó un modelo entrenado de 43 mil millones de parámetros y lo entrenó en los archivos de diseño y la documentación del fabricante de GPU para crear ChipNeMo, una IA destinada a aumentar la productividad de sus diseñadores de chips. En ese momento, el director de tecnología de la compañía, Bill Dally, dijo que capacitar a un LLM era como darle una educación en artes liberales, y ajustarlo era como enviarlo a la escuela de posgrado. El punto de referencia MLPerf toma un modelo Llama-2-70B previamente entrenado y pregunta el sistema para ajustarlo utilizando un conjunto de datos de documentos gubernamentales con el objetivo de generar resúmenes de documentos más precisos. Hay varias formas de realizar ajustes. MLPerf eligió uno llamado adaptación de rango bajo (LoRA). El método termina entrenando solo una pequeña porción de los parámetros del LLM, lo que lleva a una carga tres veces menor en el hardware y un menor uso de memoria y almacenamiento en comparación con otros métodos, según la organización. El otro nuevo punto de referencia involucró una red neuronal gráfica (GNN ). Estos son para problemas que pueden estar representados por un conjunto muy grande de nodos interconectados, como una red social o un sistema de recomendación. En comparación con otras tareas de IA, las GNN requieren mucha comunicación entre los nodos de una computadora. El punto de referencia entrenó una GNN en una base de datos que muestra relaciones entre autores académicos, artículos e institutos: un gráfico con 547 millones de nodos y 5.800 millones de aristas. Luego se entrenó la red neuronal para predecir la etiqueta correcta para cada nodo en el gráfico. Peleas futuras En las rondas de entrenamiento de 2025 es posible que se comparen cara a cara nuevos aceleradores de AMD, Intel y Nvidia. La serie MI300 de AMD se lanzó hace unos seis meses y se planea una actualización con memoria mejorada del MI325x para fines de 2024, con la próxima generación del MI350 programada para 2025. Intel dice que su Gaudi 3, generalmente disponible para los fabricantes de computadoras a finales de este año, aparecerá en los próximos puntos de referencia de inferencia de MLPerf. Los ejecutivos de Intel han dicho que el nuevo chip tiene la capacidad de superar al H100 en la formación de LLM. Pero la victoria puede durar poco, ya que Nvidia ha presentado una nueva arquitectura, Blackwell, que está prevista para finales de este año. Artículos de su sitio Artículos relacionados en la Web

Nvidia está probando una IA generativa para sus ingenieros


En un discurso de apertura en la Conferencia Internacional IEEE/ACM sobre Diseño Asistido por Computadora el lunes, el director de tecnología de Nvidia, Bill Dally, reveló que la compañía ha estado probando un modelo de IA en lenguaje grande para aumentar la productividad de sus diseñadores de chips. los hicimos un 5 por ciento más productivos, eso es una gran victoria”, dijo Dally en una entrevista antes de la conferencia. Nvidia no puede afirmar que haya alcanzado ese objetivo todavía. El sistema, llamado ChipNeMo, no está preparado para el tipo de prueba grande (y prolongada) que realmente demostraría su valor. Pero un grupo de voluntarios de Nvidia lo está utilizando y hay algunos indicios positivos, afirmó Dally. ChipNeMo es una versión especialmente adaptada de un modelo de lenguaje grande. Comienza como un LLM compuesto por 43 mil millones de parámetros que adquiere sus habilidades a partir de un billón de tokens (unidades lingüísticas fundamentales) de datos. «Eso es como darle una educación en artes liberales», dijo Dally. «Pero si quieres enviarlo a la escuela de posgrado y especializarlo, debes ajustarlo en un corpus de datos particular… en este caso, el diseño de chips». Eso requirió dos pasos más. Primero, ese modelo ya entrenado se volvió a entrenar con 24 mil millones de tokens de datos especializados. Doce mil millones de esos tokens provinieron de documentos de diseño, informes de errores y otros datos internos en inglés acumulados durante los 30 años de trabajo de Nvidia en el diseño de chips. Los otros 12 mil millones de tokens provinieron de código, como el lenguaje de descripción de hardware Verilog y scripts para llevar a cabo cosas con herramientas de automatización de diseño electrónico industrial (EDA). Finalmente, el modelo resultante se sometió a un “ajuste supervisado”, entrenándose en 130.000 conversaciones y diseños de muestra. Al resultado, ChipNeMo, se le asignaron tres tareas diferentes: como chatbot, como guionista de la herramienta EDA y como resumidor. de informes de errores. Actuar como un chatbot para ingenieros podría ahorrar tiempo a los diseñadores, dijo Dally. «Los diseñadores senior dedican mucho tiempo a responder preguntas de los diseñadores junior», dijo. Como chatbot, la IA puede ahorrar tiempo al diseñador senior respondiendo preguntas que requieren experiencia, como qué podría significar una señal extraña o cómo se debe ejecutar una prueba específica. Sin embargo, los chatbots son conocidos por su disposición a mentir cuando no lo hacen. conocen la respuesta y su tendencia a alucinar. Entonces, los desarrolladores de Nvidia integraron una función llamada generación aumentada de recuperación en ChipNeMo para mantenerlo en el nivel. Esa función obliga a la IA a recuperar documentos de los datos internos de Nvidia para respaldar sus sugerencias. La incorporación de la generación de recuperación aumentada «mejora bastante la precisión», dijo Dally. «Más importante aún, reduce las alucinaciones». En su segunda aplicación, ChipNeMo ayudó a los ingenieros a realizar pruebas en diseños y partes de ellos. «Utilizamos muchas herramientas de diseño», dijo Dally. «Estas herramientas son bastante complicadas y normalmente implican muchas líneas de secuencias de comandos». ChipNeMo simplifica el trabajo del diseñador al proporcionar una «interfaz humana muy natural para lo que de otro modo serían comandos muy arcanos». El caso de uso final de ChipNeMo, que analiza y resume los informes de errores, «es probablemente aquel en el que vemos las perspectivas de mayor aumento de productividad». lo antes posible”, dijo Dally. Cuando una prueba falla, explicó, se registra en el sistema interno de informe de errores de Nvidia, y cada informe puede incluir páginas y páginas de datos detallados. Luego se envía un «ARB» (abreviatura de «acción requerida por») a un diseñador para que lo solucione, y el tiempo comienza a correr. ChipNeMo resume las muchas páginas del informe de error en tan solo un párrafo, lo que acelera las decisiones. Incluso puede escribir ese resumen en dos modos: uno para el ingeniero y otro para el gerente. Los fabricantes de herramientas de diseño de chips, como Synopsys y Cadence, se han sumergido en la integración de la IA en sus sistemas. Pero según Dally, no podrán lograr lo mismo que Nvidia busca. “Lo que nos permite hacer esto son 30 años de documentos de diseño y código en una base de datos”, dijo. ChipNeMo está aprendiendo «de toda la experiencia de Nvidia». Las empresas de EDA simplemente no tienen ese tipo de datos. Artículos de su sitio Artículos relacionados en la Web

Source link

Funciona con WordPress & Tema de Anders Norén