La prueba pública líder de manzanas con manzanas sobre la capacidad de los sistemas informáticos para entrenar redes neuronales de aprendizaje automático ha entrado de lleno en la era de la IA generativa. A principios de este año, MLPerf agregó una prueba para entrenar modelos de lenguaje grandes (LLM), GPT-3 en particular. Este mes agrega Stable Diffusion, un generador de texto a imagen. Las computadoras con tecnología Intel y Nvidia tomaron el nuevo punto de referencia. Y los rivales continuaron su batalla anterior en el entrenamiento de GPT-3, donde Google se unió a ellos. Los tres dedicaron enormes sistemas a la tarea (la supercomputadora de 10.000 GPU de Nvidia fue la más grande jamás probada) y ese tamaño es necesario en la IA generativa. Incluso el sistema más grande de Nvidia habría necesitado ocho días de trabajo para completar completamente su trabajo de LLM. En total, 19 empresas e instituciones presentaron más de 200 resultados, lo que mostró un aumento de rendimiento de 2,8 veces en los últimos cinco meses y un aumento de 49 veces. desde que MLPerf comenzó hace cinco años. Nvidia y Microsoft prueban monstruos de 10,752 GPU. Nvidia continuó dominando las pruebas de MLPerf con sistemas fabricados con sus GPU H100. Pero la guinda del pastel fueron los resultados de Eos, la nueva supercomputadora de IA de 10.752 GPU de la compañía. Al doblar todas esas GPU para la tarea del punto de referencia de entrenamiento GPT-3, Eos hizo el trabajo en poco menos de 4 minutos. La división de computación en la nube de Microsoft, Azure, probó un sistema exactamente del mismo tamaño y quedó detrás de Eos por apenas unos segundos. (Azure impulsa el asistente de codificación CoPilot de GitHub y ChatGPT de OpenAI). Las GPU de Eos son capaces de realizar un total de 42,6 mil millones de billones de operaciones de punto flotante por segundo (exaflops). Y están unidos mediante interconexiones (Quantum-2 Infiniband de Nvidia) que transportan 1,1 millones de billones de bytes por segundo. «Algunas de estas velocidades y transmisiones son alucinantes», dice Dave Salvatore, director de evaluación comparativa de IA y computación en la nube de Nvidia. “Esta es una máquina increíblemente capaz”. Eos triplica la cantidad de GPU H100 que se han integrado en una sola máquina. Ese aumento de tres veces supuso una mejora del rendimiento de 2,8 veces, o una eficiencia de escalado del 93 por ciento. El escalado eficiente es clave para la mejora continua de la IA generativa, que se ha multiplicado por diez cada año. El punto de referencia GPT-3 que abordó Eos no es una capacitación completa de GPT-3, porque MLPerf quería que estuviera al alcance de muchas empresas. En cambio, implica entrenar el sistema hasta un cierto punto de control que demuestre que el entrenamiento habría alcanzado la precisión necesaria con el tiempo suficiente. Y estas capacitaciones toman tiempo. Extrapolando los 4 minutos de Eos significa que se necesitarían 8 días para completar el entrenamiento, y eso es en lo que podría ser la supercomputadora de IA más poderosa construida hasta ahora. Una computadora de tamaño más razonable (512 H100) tomaría 4 meses. Intel continúa cerrando en Intel presentó resultados para sistemas que utilizan el chip acelerador Gaudi 2 y para aquellos que no tenían ningún acelerador, confiando únicamente en su CPU Xeon de cuarta generación. El gran cambio con respecto al último conjunto de puntos de referencia de capacitación fue que la compañía había habilitado las capacidades de punto flotante de 8 bits (FP8) de Gaudi 2. El uso de números de menor precisión, como FP8, ha sido responsable de la mayor parte de la mejora en el rendimiento de la GPU en los últimos 10 años. El uso de FP8 en partes de GPT-3 y otras redes neuronales de transformadores donde su baja precisión no afectará la precisión ya ha mostrado su valor en los resultados H100 de Nvidia. Ahora Gaudi 2 está viendo el impulso. “Proyectamos una ganancia del 90 por ciento” al encender el FP8, dice Eitan Medina, director de operaciones de Intel Habana Labs. «Hemos entregado más de lo prometido: una reducción del 103 por ciento en el tiempo de entrenamiento para un grupo de 384 aceleradores». Ese nuevo resultado coloca al sistema Gaudi 2 a poco menos de un tercio de la velocidad de un sistema Nvidia en un por chip y tres veces más rápido que el TPUv5e de Google. En el punto de referencia de nueva generación de imágenes, Gaudi 2 también tenía aproximadamente la mitad de velocidad que el H100. GPT-3 fue el único punto de referencia que FP8 se habilitó para esta ronda, pero Medina dice que su equipo está trabajando para activarlo para otros ahora. Medina continuó argumentando que Gaudi 2 tiene un precio significativamente más bajo que el H100, por lo que tiene una ventaja en una métrica combinada de precio y rendimiento. Medina espera que la ventaja aumente con la próxima generación del chip acelerador Intel, Gaudi 3. Ese chip se producirá en volumen en 2024 y se construirá utilizando el mismo proceso de fabricación de semiconductores que la Nvidia H100. Por otra parte, Intel presentó resultados para sistemas basados en sólo en CPU. Nuevamente, se muestran tiempos de entrenamiento de entre minutos y horas para varios puntos de referencia. Más allá de los puntos de referencia MLPerf, Intel también compartió algunos datos que muestran que un sistema Xeon de 4 nodos, cuyos chips incluyen el motor de matriz AMX, puede ajustar la difusión estable del generador de imágenes en menos de cinco minutos. El ajuste fino toma una red neuronal ya entrenada y la especializa en una tarea determinada. Por ejemplo, la IA del diseño de chips de Nvidia es un ajuste fino de un modelo de lenguaje grande existente llamado NeMo. Puede ver todos los resultados aquí. De los artículos de su sitio Artículos relacionados en la Web
Source link