Aunque el dominio de las GPU de Nvidia para el entrenamiento de IA sigue siendo indiscutible, es posible que estemos viendo señales tempranas de que, en el ámbito de la inferencia de IA, la competencia está ganando terreno al gigante tecnológico, en particular en términos de eficiencia energética. Sin embargo, el rendimiento absoluto del nuevo chip Blackwell de Nvidia puede ser difícil de superar. Esta mañana, ML Commons publicó los resultados de su última competencia de inferencia de IA, ML Perf Inference v4.1. Esta ronda incluyó presentaciones por primera vez de equipos que utilizan aceleradores AMD Instinct, los últimos aceleradores Google Trillium, chips de la startup UntetherAI con sede en Toronto, así como una primera prueba del nuevo chip Blackwell de Nvidia. Otras dos empresas, Cerebras y FuriosaAI, anunciaron nuevos chips de inferencia pero no se presentaron a MLPerf. Al igual que un deporte olímpico, MLPerf tiene muchas categorías y subcategorías. La que vio la mayor cantidad de presentaciones fue la categoría «cerrada en el centro de datos». La categoría cerrada (a diferencia de la abierta) requiere que los participantes ejecuten inferencias en un modelo determinado tal como está, sin modificaciones significativas del software. La categoría de centro de datos prueba a los participantes en el procesamiento masivo de consultas, a diferencia de la categoría de borde, donde la minimización de la latencia es el foco. Dentro de cada categoría, hay 9 puntos de referencia diferentes, para diferentes tipos de tareas de IA. Estos incluyen casos de uso populares como la generación de imágenes (piense en Midjourney) y LLM Q&A (piense en ChatGPT), así como tareas igualmente importantes pero menos anunciadas como la clasificación de imágenes, la detección de objetos y los motores de recomendación. Esta ronda de la competencia incluyó un nuevo punto de referencia, llamado Mixture of Experts. Esta es una tendencia creciente en la implementación de LLM, donde un modelo de lenguaje se divide en varios modelos de lenguaje independientes más pequeños, cada uno ajustado para una tarea particular, como una conversación regular, la resolución de problemas matemáticos y la asistencia con la codificación. El modelo puede dirigir cada consulta a un subconjunto apropiado de los modelos más pequeños, o «expertos». Este enfoque permite un menor uso de recursos por consulta, lo que permite un menor costo y un mayor rendimiento, dice Miroslav Hodak, presidente del grupo de trabajo de inferencia de MLPerf y miembro senior del personal técnico de AMD. Los ganadores en cada punto de referencia dentro del popular punto de referencia cerrado para centros de datos fueron aún los envíos basados ​​en las GPU H200 y los superchips GH200 de Nvidia, que combinan GPU y CPU en el mismo paquete. Sin embargo, un análisis más detallado de los resultados de rendimiento presenta un panorama más complejo. Algunos de los participantes utilizaron muchos chips aceleradores, mientras que otros utilizaron solo uno. Si normalizamos la cantidad de consultas por segundo que cada participante pudo manejar por la cantidad de aceleradores utilizados y mantenemos solo los envíos con mejor rendimiento para cada tipo de acelerador, surgen algunos detalles interesantes. (Es importante señalar que este enfoque ignora el papel de las CPU y las interconexiones). En función de cada acelerador, Blackwell de Nvidia supera a todas las iteraciones de chip anteriores en 2,5 veces en la tarea de preguntas y respuestas de LLM, la única prueba comparativa a la que se envió. El chip speedAI240 Preview de Untether AI tuvo un rendimiento casi a la par con el H200 en su única tarea de envío, reconocimiento de imágenes. El Trillium de Google tuvo un rendimiento un poco más de la mitad de bueno que el H100 y el H200 en la generación de imágenes, y el Instinct de AMD tuvo un rendimiento casi a la par con el H100 en la tarea de preguntas y respuestas de LLM. El poder de Blackwell Una de las razones del éxito de Nvidia Blackwell es su capacidad para ejecutar el LLM utilizando una precisión de punto flotante de 4 bits. Nvidia y sus rivales han estado reduciendo la cantidad de bits utilizados para representar datos en partes de modelos de transformadores como ChatGPT para acelerar el cálculo. Nvidia introdujo la matemática de 8 bits con el H100, y esta presentación marca la primera demostración de matemática de 4 bits en los puntos de referencia MLPerf. El mayor desafío con el uso de números de tan baja precisión es mantener la exactitud, dice el director de marketing de productos de Nvidia, Dave Salvator. Para mantener la alta precisión requerida para las presentaciones de MLPerf, el equipo de Nvidia tuvo que innovar significativamente en el software, dice. Otra contribución importante al éxito de Blackwell es que casi duplicó el ancho de banda de memoria, 8 terabytes/segundo, en comparación con los 4,8 terabytes/segundo de H200. Nvidia GB2800 Grace Blackwell SuperchipNvidia La presentación de Blackwell de Nvidia utilizó un solo chip, pero Salvator dice que está diseñado para conectarse en red y escalar, y funcionará mejor cuando se combine con las interconexiones NVLink de Nvidia. Las GPU Blackwell admiten hasta 18 conexiones NVLink de 100 gigabytes por segundo para un ancho de banda total de 1,8 terabytes por segundo, aproximadamente el doble del ancho de banda de interconexión de los H100. Salvatore argumenta que con el aumento del tamaño de los modelos de lenguaje grandes, incluso la inferencia requerirá plataformas con múltiples GPU para mantenerse al día con la demanda, y Blackwell está diseñado para esta eventualidad. «Blackwell es una plataforma», dice Salvator. Nvidia presentó su sistema basado en el chip Blackwell en la subcategoría de vista previa, lo que significa que aún no está a la venta, pero se espera que esté disponible antes del próximo lanzamiento de MLPerf, dentro de seis meses. Untether AI brilla en el uso de energía y en el borde Para cada punto de referencia, MLPerf también incluye una contraparte de medición de energía, que prueba sistemáticamente la energía del enchufe de pared que consume cada uno de los sistemas mientras realiza una tarea. El evento principal (la categoría de energía cerrada del centro de datos) tuvo solo dos participantes en esta ronda: Nvidia y Untether AI. Si bien Nvidia compitió en todos los puntos de referencia, Untether solo se presentó para el reconocimiento de imágenes. SubmitterAcceleratorNumber of acceleratorsQueries per secondWattsConsultas por segundo por vatio NVIDIA NVIDIA H200-SXM-141GB 8 480,131.00 5,013.79 95.76 UntetherAI UntetherAI speedAI240 Slim 6 309,752.00 985.52 314.30 La startup pudo lograr esta impresionante eficiencia al construir chips con un enfoque que llama computación en memoria. Los chips de UntetherAI están construidos como una cuadrícula de elementos de memoria con pequeños procesadores intercalados directamente adyacentes a ellos. Los procesadores están paralelizados, cada uno trabajando simultáneamente con los datos en las unidades de memoria cercanas, lo que reduce en gran medida la cantidad de tiempo y energía gastados en trasladar datos del modelo entre la memoria y los núcleos de cómputo. “Lo que vimos fue que el 90 por ciento de la energía que se necesita para realizar una carga de trabajo de IA consiste simplemente en trasladar los datos desde la DRAM a la memoria caché y al elemento de procesamiento”, afirma Robert Beachler, vicepresidente de productos de Untether AI. “Por lo tanto, lo que hizo Untether fue darle la vuelta a esa situación… En lugar de trasladar los datos al cómputo, voy a trasladar el cómputo a los datos”. Este enfoque resultó particularmente exitoso en otra subcategoría de MLPerf: edge-closed. Esta categoría está orientada a casos de uso más prácticos, como la inspección de máquinas en la planta de producción, la robótica de visión guiada y los vehículos autónomos, aplicaciones en las que el bajo consumo de energía y el procesamiento rápido son primordiales, afirma Beachler. RemitenteTipo de GPUNúmero de GPULatencia de flujo único (ms)Latencia de flujo múltiple (ms)Muestras/s Lenovo NVIDIA L4 2 0,39 0,75 25 600,00 Lenovo NVIDIA L40S 2 0,33 0,53 86 304,60 UntetherAI UntetherAI speedAI240 Preview 2 0,12 0,21 140 625,00 En la tarea de reconocimiento de imágenes, nuevamente la única para la que UntetherAI informó resultados, el chip speedAI240 Preview superó el rendimiento de latencia de NVIDIA L40S en 2,8x y su rendimiento (muestras por segundo) en 1,6x. La startup también presentó resultados de potencia en esta categoría, pero sus competidores acelerados por Nvidia no lo hicieron, por lo que es difícil hacer una comparación directa. Sin embargo, el consumo nominal de energía por chip para el chip speedAI240 Preview de UntetherAI es de 150 vatios, mientras que para los L40 de Nvidia es de 350 W, lo que lleva a una reducción de energía nominal de 2,3x con una latencia mejorada. Cerebras y Furiosa se saltan MLPerf pero anuncian nuevos chipsEl nuevo chip de Furiosa implementa la función matemática básica de la inferencia de IA, la multiplicación de matrices, de una manera diferente y más eficiente. Furiosa Ayer en la conferencia IEEE Hot Chips en Stanford, Cerebras presentó su propio servicio de inferencia. La compañía de Sunnyvale, California, fabrica chips gigantes, tan grandes como lo permite una oblea de silicio, evitando así las interconexiones entre chips y aumentando enormemente el ancho de banda de memoria de sus dispositivos, que se utilizan principalmente para entrenar redes neuronales masivas. Ahora ha actualizado su pila de software para utilizar su último ordenador CS3 para la inferencia. Aunque Cerebras no se presentó a MLPerf, la empresa afirma que su plataforma supera a un H100 por 7x y al chip de la startup de IA competidora Groq por 2x en tokens LLM generados por segundo. «Hoy estamos en la era de acceso telefónico de Gen AI», dice el CEO y cofundador de Cerebras, Andrew Feldman. «Y esto se debe a que existe una barrera de ancho de banda de memoria. Ya sea un H100 de Nvidia o MI 300 o TPU, todos usan la misma memoria fuera del chip y produce la misma limitación. Superamos esto, y lo hacemos porque somos de escala de oblea». Hot Chips también vio un anuncio de Furiosa, con sede en Seúl, presentando su chip de segunda generación, RNGD (pronunciado «renegado»). Lo que diferencia al chip de Furiosa es su arquitectura de Procesador de Contracción Tensorial (TCP). La operación básica en las cargas de trabajo de IA es la multiplicación de matrices, normalmente implementada como un primitivo en hardware. Sin embargo, el tamaño y la forma de las matrices, más generalmente conocidas como tensores, pueden variar ampliamente. RNGD implementa la multiplicación de esta versión más generalizada, los tensores, como un primitivo en su lugar. «Durante la inferencia, los tamaños de los lotes varían ampliamente, por lo que es importante utilizar el paralelismo inherente y la reutilización de datos de una forma de tensor dada», dijo el fundador y CEO de Furiosa, June Paik, en Hot Chips. Aunque no se presentó a MLPerf, Furiosa comparó el rendimiento de su chip RNGD en el punto de referencia de resumen LLM de MLPerf internamente. Funcionó a la par con el chip L40S orientado al borde de Nvidia mientras usaba solo 185 vatios de energía, en comparación con los 320 W del L40S. Y, dice Paik, el rendimiento mejorará con más optimizaciones de software. IBM también anunció su nuevo chip Spyre diseñado para cargas de trabajo de IA generativa empresarial, que estará disponible en el primer trimestre de 2025. Al menos, los compradores del mercado de chips de inferencia de IA no se aburrirán en el futuro cercano. Artículos de su sitio Artículos relacionados en la Web