Durante años, Nvidia ha dominado muchos puntos de referencia de aprendizaje automático, y ahora tiene dos muescas más en su haber.MLPerf, la suite de evaluación comparativa de IA a veces llamada «las Olimpíadas del aprendizaje automático», ha lanzado un nuevo conjunto de pruebas de entrenamiento para ayudar a hacer más y mejores comparaciones entre sistemas informáticos competidores. Una de las nuevas pruebas de MLPerf se refiere al ajuste de grandes modelos de lenguaje, un proceso que toma un modelo entrenado existente y lo entrena un poco más con conocimiento especializado para hacerlo adecuado para un propósito particular. El otro es para redes neuronales gráficas, un tipo de aprendizaje automático detrás de algunas bases de datos bibliográficas, detección de fraude en sistemas financieros y redes sociales. Incluso con las adiciones y la participación de computadoras que utilizan los aceleradores de inteligencia artificial de Google e Intel, los sistemas impulsados ​​por la arquitectura Hopper de Nvidia dominó los resultados una vez más. Un sistema que incluía 11.616 GPU Nvidia H100 (la colección más grande hasta el momento) superó cada uno de los nueve puntos de referencia, estableciendo récords en cinco de ellos (incluidos los dos nuevos puntos de referencia). vas a mejorar”. —Dave Salvator, Nvidia El sistema 11,616-H100 es “el más grande que jamás hayamos creado”, dice Dave Salvator, director de productos de computación acelerada de Nvidia. Superó la prueba de entrenamiento GPT-3 en menos de 3,5 minutos. En comparación, un sistema de 512 GPU tardó unos 51 minutos. (Tenga en cuenta que la tarea GPT-3 no es una capacitación completa, que podría llevar semanas y costar millones de dólares. En cambio, las computadoras se entrenan con una parte representativa de los datos, en un punto acordado mucho antes de completarse). El mayor participante de Nvidia en GPT-3 el año pasado, una computadora H100 de 3.584, el resultado de 3,5 minutos representa una mejora de 3,2 veces. Se podría esperar eso solo por la diferencia en el tamaño de estos sistemas, pero en la informática de IA ese no es siempre el caso, explica Salvator. «Si simplemente le lanzamos hardware al problema, no es un hecho que vayamos a mejorar», afirma. «Estamos consiguiendo un escalamiento esencialmente lineal», afirma Salvatore. Con esto quiere decir que el doble de GPU lleva a un tiempo de entrenamiento reducido a la mitad. “[That] representa un gran logro de nuestros equipos de ingeniería”, añade. Los competidores también se están acercando al escalamiento lineal. En esta ronda, Intel implementó un sistema que utiliza 1.024 GPU que realizó la tarea GPT-3 en 67 minutos, en comparación con una computadora de un cuarto del tamaño que tomó 224 minutos hace seis meses. La entrada GPT-3 más grande de Google utilizó 12 veces la cantidad de aceleradores TPU v5p que su entrada más pequeña y realizó su tarea nueve veces más rápido. El escalado lineal será particularmente importante para las próximas «fábricas de IA» que albergarán 100.000 GPU o más, Salvatore dice. Dice que se espera que uno de esos centros de datos entre en funcionamiento este año y que otro, que utiliza la próxima arquitectura de Nvidia, Blackwell, se ponga en funcionamiento en 2025. La racha de Nvidia continúa. Nvidia continuó aumentando los tiempos de capacitación a pesar de usar la misma arquitectura, Hopper, como lo hizo el año pasado. resultados de formación del año. Todo esto se debe a mejoras de software, afirma Salvatore. “Por lo general, obtendremos un 2-2,5x [boost] del software después del lanzamiento de una nueva arquitectura”, dice. Para la capacitación de GPT-3, Nvidia registró una mejora del 27 por ciento con respecto a los puntos de referencia MLPerf de junio de 2023. Salvatore dice que hubo varios cambios de software detrás del impulso. Por ejemplo, los ingenieros de Nvidia ajustaron el uso de Hopper de operaciones de punto flotante de 8 bits menos precisas al recortar conversiones innecesarias entre números de 8 y 16 bits y determinar mejor qué capas de una red neuronal podrían usar el formato numérico de menor precisión. También encontraron una manera más inteligente de ajustar el presupuesto de energía de los motores de cómputo de cada chip y aceleraron la comunicación entre las GPU de una manera que Salvatore comparó con «untar mantequilla en la tostada mientras aún está en la tostadora». Además, la compañía implementó un esquema llamado llamar la atención. Inventada en el laboratorio de la Universidad de Stanford del fundador de Samba Nova, Chris Re, la atención flash es un algoritmo que acelera las redes de transformadores minimizando las escrituras en la memoria. Cuando apareció por primera vez en los puntos de referencia de MLPerf, la atención flash redujo hasta un 10 por ciento los tiempos de entrenamiento. (Intel también usó una versión de atención flash, pero no para GPT-3. En su lugar, usó el algoritmo para uno de los nuevos puntos de referencia, el ajuste fino). Usando otro software y trucos de red, Nvidia logró una aceleración del 80 por ciento en el prueba de conversión de texto a imagen, Stable Diffusion, frente a su presentación en noviembre de 2023. Nuevos puntos de referenciaMLPerf agrega nuevos puntos de referencia y actualiza los antiguos para seguir siendo relevante con lo que está sucediendo en la industria de la IA. Este año se agregó el ajuste fino y las redes neuronales gráficas. El ajuste fino requiere un LLM ya capacitado y lo especializa para su uso en un campo en particular. Nvidia, por ejemplo, tomó un modelo entrenado de 43 mil millones de parámetros y lo entrenó en los archivos de diseño y la documentación del fabricante de GPU para crear ChipNeMo, una IA destinada a aumentar la productividad de sus diseñadores de chips. En ese momento, el director de tecnología de la compañía, Bill Dally, dijo que capacitar a un LLM era como darle una educación en artes liberales, y ajustarlo era como enviarlo a la escuela de posgrado. El punto de referencia MLPerf toma un modelo Llama-2-70B previamente entrenado y pregunta el sistema para ajustarlo utilizando un conjunto de datos de documentos gubernamentales con el objetivo de generar resúmenes de documentos más precisos. Hay varias formas de realizar ajustes. MLPerf eligió uno llamado adaptación de rango bajo (LoRA). El método termina entrenando solo una pequeña porción de los parámetros del LLM, lo que lleva a una carga tres veces menor en el hardware y un menor uso de memoria y almacenamiento en comparación con otros métodos, según la organización. El otro nuevo punto de referencia involucró una red neuronal gráfica (GNN ). Estos son para problemas que pueden estar representados por un conjunto muy grande de nodos interconectados, como una red social o un sistema de recomendación. En comparación con otras tareas de IA, las GNN requieren mucha comunicación entre los nodos de una computadora. El punto de referencia entrenó una GNN en una base de datos que muestra relaciones entre autores académicos, artículos e institutos: un gráfico con 547 millones de nodos y 5.800 millones de aristas. Luego se entrenó la red neuronal para predecir la etiqueta correcta para cada nodo en el gráfico. Peleas futuras En las rondas de entrenamiento de 2025 es posible que se comparen cara a cara nuevos aceleradores de AMD, Intel y Nvidia. La serie MI300 de AMD se lanzó hace unos seis meses y se planea una actualización con memoria mejorada del MI325x para fines de 2024, con la próxima generación del MI350 programada para 2025. Intel dice que su Gaudi 3, generalmente disponible para los fabricantes de computadoras a finales de este año, aparecerá en los próximos puntos de referencia de inferencia de MLPerf. Los ejecutivos de Intel han dicho que el nuevo chip tiene la capacidad de superar al H100 en la formación de LLM. Pero la victoria puede durar poco, ya que Nvidia ha presentado una nueva arquitectura, Blackwell, que está prevista para finales de este año. Artículos de su sitio Artículos relacionados en la Web