Todo lo que necesitas saber sobre tecnología

Etiqueta: mlperf

Blackwell, AMD Instinct y Untethered AI: primeros puntos de referencia

Blackwell, AMD Instinct y Untethered AI: primeros puntos de referencia

Aunque el dominio de las GPU de Nvidia para el entrenamiento de IA sigue siendo indiscutible, es posible que estemos viendo señales tempranas de que, en el ámbito de la inferencia de IA, la competencia está ganando terreno al gigante tecnológico, en particular en términos de eficiencia energética. Sin embargo, el rendimiento absoluto del nuevo chip Blackwell de Nvidia puede ser difícil de superar. Esta mañana, ML Commons publicó los resultados de su última competencia de inferencia de IA, ML Perf Inference v4.1. Esta ronda incluyó presentaciones por primera vez de equipos que utilizan aceleradores AMD Instinct, los últimos aceleradores Google Trillium, chips de la startup UntetherAI con sede en Toronto, así como una primera prueba del nuevo chip Blackwell de Nvidia. Otras dos empresas, Cerebras y FuriosaAI, anunciaron nuevos chips de inferencia pero no se presentaron a MLPerf. Al igual que un deporte olímpico, MLPerf tiene muchas categorías y subcategorías. La que vio la mayor cantidad de presentaciones fue la categoría «cerrada en el centro de datos». La categoría cerrada (a diferencia de la abierta) requiere que los participantes ejecuten inferencias en un modelo determinado tal como está, sin modificaciones significativas del software. La categoría de centro de datos prueba a los participantes en el procesamiento masivo de consultas, a diferencia de la categoría de borde, donde la minimización de la latencia es el foco. Dentro de cada categoría, hay 9 puntos de referencia diferentes, para diferentes tipos de tareas de IA. Estos incluyen casos de uso populares como la generación de imágenes (piense en Midjourney) y LLM Q&A (piense en ChatGPT), así como tareas igualmente importantes pero menos anunciadas como la clasificación de imágenes, la detección de objetos y los motores de recomendación. Esta ronda de la competencia incluyó un nuevo punto de referencia, llamado Mixture of Experts. Esta es una tendencia creciente en la implementación de LLM, donde un modelo de lenguaje se divide en varios modelos de lenguaje independientes más pequeños, cada uno ajustado para una tarea particular, como una conversación regular, la resolución de problemas matemáticos y la asistencia con la codificación. El modelo puede dirigir cada consulta a un subconjunto apropiado de los modelos más pequeños, o «expertos». Este enfoque permite un menor uso de recursos por consulta, lo que permite un menor costo y un mayor rendimiento, dice Miroslav Hodak, presidente del grupo de trabajo de inferencia de MLPerf y miembro senior del personal técnico de AMD. Los ganadores en cada punto de referencia dentro del popular punto de referencia cerrado para centros de datos fueron aún los envíos basados ​​en las GPU H200 y los superchips GH200 de Nvidia, que combinan GPU y CPU en el mismo paquete. Sin embargo, un análisis más detallado de los resultados de rendimiento presenta un panorama más complejo. Algunos de los participantes utilizaron muchos chips aceleradores, mientras que otros utilizaron solo uno. Si normalizamos la cantidad de consultas por segundo que cada participante pudo manejar por la cantidad de aceleradores utilizados y mantenemos solo los envíos con mejor rendimiento para cada tipo de acelerador, surgen algunos detalles interesantes. (Es importante señalar que este enfoque ignora el papel de las CPU y las interconexiones). En función de cada acelerador, Blackwell de Nvidia supera a todas las iteraciones de chip anteriores en 2,5 veces en la tarea de preguntas y respuestas de LLM, la única prueba comparativa a la que se envió. El chip speedAI240 Preview de Untether AI tuvo un rendimiento casi a la par con el H200 en su única tarea de envío, reconocimiento de imágenes. El Trillium de Google tuvo un rendimiento un poco más de la mitad de bueno que el H100 y el H200 en la generación de imágenes, y el Instinct de AMD tuvo un rendimiento casi a la par con el H100 en la tarea de preguntas y respuestas de LLM. El poder de Blackwell Una de las razones del éxito de Nvidia Blackwell es su capacidad para ejecutar el LLM utilizando una precisión de punto flotante de 4 bits. Nvidia y sus rivales han estado reduciendo la cantidad de bits utilizados para representar datos en partes de modelos de transformadores como ChatGPT para acelerar el cálculo. Nvidia introdujo la matemática de 8 bits con el H100, y esta presentación marca la primera demostración de matemática de 4 bits en los puntos de referencia MLPerf. El mayor desafío con el uso de números de tan baja precisión es mantener la exactitud, dice el director de marketing de productos de Nvidia, Dave Salvator. Para mantener la alta precisión requerida para las presentaciones de MLPerf, el equipo de Nvidia tuvo que innovar significativamente en el software, dice. Otra contribución importante al éxito de Blackwell es que casi duplicó el ancho de banda de memoria, 8 terabytes/segundo, en comparación con los 4,8 terabytes/segundo de H200. Nvidia GB2800 Grace Blackwell SuperchipNvidia La presentación de Blackwell de Nvidia utilizó un solo chip, pero Salvator dice que está diseñado para conectarse en red y escalar, y funcionará mejor cuando se combine con las interconexiones NVLink de Nvidia. Las GPU Blackwell admiten hasta 18 conexiones NVLink de 100 gigabytes por segundo para un ancho de banda total de 1,8 terabytes por segundo, aproximadamente el doble del ancho de banda de interconexión de los H100. Salvatore argumenta que con el aumento del tamaño de los modelos de lenguaje grandes, incluso la inferencia requerirá plataformas con múltiples GPU para mantenerse al día con la demanda, y Blackwell está diseñado para esta eventualidad. «Blackwell es una plataforma», dice Salvator. Nvidia presentó su sistema basado en el chip Blackwell en la subcategoría de vista previa, lo que significa que aún no está a la venta, pero se espera que esté disponible antes del próximo lanzamiento de MLPerf, dentro de seis meses. Untether AI brilla en el uso de energía y en el borde Para cada punto de referencia, MLPerf también incluye una contraparte de medición de energía, que prueba sistemáticamente la energía del enchufe de pared que consume cada uno de los sistemas mientras realiza una tarea. El evento principal (la categoría de energía cerrada del centro de datos) tuvo solo dos participantes en esta ronda: Nvidia y Untether AI. Si bien Nvidia compitió en todos los puntos de referencia, Untether solo se presentó para el reconocimiento de imágenes. SubmitterAcceleratorNumber of acceleratorsQueries per secondWattsConsultas por segundo por vatio NVIDIA NVIDIA H200-SXM-141GB 8 480,131.00 5,013.79 95.76 UntetherAI UntetherAI speedAI240 Slim 6 309,752.00 985.52 314.30 La startup pudo lograr esta impresionante eficiencia al construir chips con un enfoque que llama computación en memoria. Los chips de UntetherAI están construidos como una cuadrícula de elementos de memoria con pequeños procesadores intercalados directamente adyacentes a ellos. Los procesadores están paralelizados, cada uno trabajando simultáneamente con los datos en las unidades de memoria cercanas, lo que reduce en gran medida la cantidad de tiempo y energía gastados en trasladar datos del modelo entre la memoria y los núcleos de cómputo. “Lo que vimos fue que el 90 por ciento de la energía que se necesita para realizar una carga de trabajo de IA consiste simplemente en trasladar los datos desde la DRAM a la memoria caché y al elemento de procesamiento”, afirma Robert Beachler, vicepresidente de productos de Untether AI. “Por lo tanto, lo que hizo Untether fue darle la vuelta a esa situación… En lugar de trasladar los datos al cómputo, voy a trasladar el cómputo a los datos”. Este enfoque resultó particularmente exitoso en otra subcategoría de MLPerf: edge-closed. Esta categoría está orientada a casos de uso más prácticos, como la inspección de máquinas en la planta de producción, la robótica de visión guiada y los vehículos autónomos, aplicaciones en las que el bajo consumo de energía y el procesamiento rápido son primordiales, afirma Beachler. RemitenteTipo de GPUNúmero de GPULatencia de flujo único (ms)Latencia de flujo múltiple (ms)Muestras/s Lenovo NVIDIA L4 2 0,39 0,75 25 600,00 Lenovo NVIDIA L40S 2 0,33 0,53 86 304,60 UntetherAI UntetherAI speedAI240 Preview 2 0,12 0,21 140 625,00 En la tarea de reconocimiento de imágenes, nuevamente la única para la que UntetherAI informó resultados, el chip speedAI240 Preview superó el rendimiento de latencia de NVIDIA L40S en 2,8x y su rendimiento (muestras por segundo) en 1,6x. La startup también presentó resultados de potencia en esta categoría, pero sus competidores acelerados por Nvidia no lo hicieron, por lo que es difícil hacer una comparación directa. Sin embargo, el consumo nominal de energía por chip para el chip speedAI240 Preview de UntetherAI es de 150 vatios, mientras que para los L40 de Nvidia es de 350 W, lo que lleva a una reducción de energía nominal de 2,3x con una latencia mejorada. Cerebras y Furiosa se saltan MLPerf pero anuncian nuevos chipsEl nuevo chip de Furiosa implementa la función matemática básica de la inferencia de IA, la multiplicación de matrices, de una manera diferente y más eficiente. Furiosa Ayer en la conferencia IEEE Hot Chips en Stanford, Cerebras presentó su propio servicio de inferencia. La compañía de Sunnyvale, California, fabrica chips gigantes, tan grandes como lo permite una oblea de silicio, evitando así las interconexiones entre chips y aumentando enormemente el ancho de banda de memoria de sus dispositivos, que se utilizan principalmente para entrenar redes neuronales masivas. Ahora ha actualizado su pila de software para utilizar su último ordenador CS3 para la inferencia. Aunque Cerebras no se presentó a MLPerf, la empresa afirma que su plataforma supera a un H100 por 7x y al chip de la startup de IA competidora Groq por 2x en tokens LLM generados por segundo. «Hoy estamos en la era de acceso telefónico de Gen AI», dice el CEO y cofundador de Cerebras, Andrew Feldman. «Y esto se debe a que existe una barrera de ancho de banda de memoria. Ya sea un H100 de Nvidia o MI 300 o TPU, todos usan la misma memoria fuera del chip y produce la misma limitación. Superamos esto, y lo hacemos porque somos de escala de oblea». Hot Chips también vio un anuncio de Furiosa, con sede en Seúl, presentando su chip de segunda generación, RNGD (pronunciado «renegado»). Lo que diferencia al chip de Furiosa es su arquitectura de Procesador de Contracción Tensorial (TCP). La operación básica en las cargas de trabajo de IA es la multiplicación de matrices, normalmente implementada como un primitivo en hardware. Sin embargo, el tamaño y la forma de las matrices, más generalmente conocidas como tensores, pueden variar ampliamente. RNGD implementa la multiplicación de esta versión más generalizada, los tensores, como un primitivo en su lugar. «Durante la inferencia, los tamaños de los lotes varían ampliamente, por lo que es importante utilizar el paralelismo inherente y la reutilización de datos de una forma de tensor dada», dijo el fundador y CEO de Furiosa, June Paik, en Hot Chips. Aunque no se presentó a MLPerf, Furiosa comparó el rendimiento de su chip RNGD en el punto de referencia de resumen LLM de MLPerf internamente. Funcionó a la par con el chip L40S orientado al borde de Nvidia mientras usaba solo 185 vatios de energía, en comparación con los 320 W del L40S. Y, dice Paik, el rendimiento mejorará con más optimizaciones de software. IBM también anunció su nuevo chip Spyre diseñado para cargas de trabajo de IA generativa empresarial, que estará disponible en el primer trimestre de 2025. Al menos, los compradores del mercado de chips de inferencia de IA no se aburrirán en el futuro cercano. Artículos de su sitio Artículos relacionados en la Web

Nvidia conquista las últimas pruebas de inteligencia artificial

Nvidia conquista las últimas pruebas de inteligencia artificial


Durante años, Nvidia ha dominado muchos puntos de referencia de aprendizaje automático, y ahora tiene dos muescas más en su haber.MLPerf, la suite de evaluación comparativa de IA a veces llamada «las Olimpíadas del aprendizaje automático», ha lanzado un nuevo conjunto de pruebas de entrenamiento para ayudar a hacer más y mejores comparaciones entre sistemas informáticos competidores. Una de las nuevas pruebas de MLPerf se refiere al ajuste de grandes modelos de lenguaje, un proceso que toma un modelo entrenado existente y lo entrena un poco más con conocimiento especializado para hacerlo adecuado para un propósito particular. El otro es para redes neuronales gráficas, un tipo de aprendizaje automático detrás de algunas bases de datos bibliográficas, detección de fraude en sistemas financieros y redes sociales. Incluso con las adiciones y la participación de computadoras que utilizan los aceleradores de inteligencia artificial de Google e Intel, los sistemas impulsados ​​por la arquitectura Hopper de Nvidia dominó los resultados una vez más. Un sistema que incluía 11.616 GPU Nvidia H100 (la colección más grande hasta el momento) superó cada uno de los nueve puntos de referencia, estableciendo récords en cinco de ellos (incluidos los dos nuevos puntos de referencia). vas a mejorar”. —Dave Salvator, Nvidia El sistema 11,616-H100 es “el más grande que jamás hayamos creado”, dice Dave Salvator, director de productos de computación acelerada de Nvidia. Superó la prueba de entrenamiento GPT-3 en menos de 3,5 minutos. En comparación, un sistema de 512 GPU tardó unos 51 minutos. (Tenga en cuenta que la tarea GPT-3 no es una capacitación completa, que podría llevar semanas y costar millones de dólares. En cambio, las computadoras se entrenan con una parte representativa de los datos, en un punto acordado mucho antes de completarse). El mayor participante de Nvidia en GPT-3 el año pasado, una computadora H100 de 3.584, el resultado de 3,5 minutos representa una mejora de 3,2 veces. Se podría esperar eso solo por la diferencia en el tamaño de estos sistemas, pero en la informática de IA ese no es siempre el caso, explica Salvator. «Si simplemente le lanzamos hardware al problema, no es un hecho que vayamos a mejorar», afirma. «Estamos consiguiendo un escalamiento esencialmente lineal», afirma Salvatore. Con esto quiere decir que el doble de GPU lleva a un tiempo de entrenamiento reducido a la mitad. “[That] representa un gran logro de nuestros equipos de ingeniería”, añade. Los competidores también se están acercando al escalamiento lineal. En esta ronda, Intel implementó un sistema que utiliza 1.024 GPU que realizó la tarea GPT-3 en 67 minutos, en comparación con una computadora de un cuarto del tamaño que tomó 224 minutos hace seis meses. La entrada GPT-3 más grande de Google utilizó 12 veces la cantidad de aceleradores TPU v5p que su entrada más pequeña y realizó su tarea nueve veces más rápido. El escalado lineal será particularmente importante para las próximas «fábricas de IA» que albergarán 100.000 GPU o más, Salvatore dice. Dice que se espera que uno de esos centros de datos entre en funcionamiento este año y que otro, que utiliza la próxima arquitectura de Nvidia, Blackwell, se ponga en funcionamiento en 2025. La racha de Nvidia continúa. Nvidia continuó aumentando los tiempos de capacitación a pesar de usar la misma arquitectura, Hopper, como lo hizo el año pasado. resultados de formación del año. Todo esto se debe a mejoras de software, afirma Salvatore. “Por lo general, obtendremos un 2-2,5x [boost] del software después del lanzamiento de una nueva arquitectura”, dice. Para la capacitación de GPT-3, Nvidia registró una mejora del 27 por ciento con respecto a los puntos de referencia MLPerf de junio de 2023. Salvatore dice que hubo varios cambios de software detrás del impulso. Por ejemplo, los ingenieros de Nvidia ajustaron el uso de Hopper de operaciones de punto flotante de 8 bits menos precisas al recortar conversiones innecesarias entre números de 8 y 16 bits y determinar mejor qué capas de una red neuronal podrían usar el formato numérico de menor precisión. También encontraron una manera más inteligente de ajustar el presupuesto de energía de los motores de cómputo de cada chip y aceleraron la comunicación entre las GPU de una manera que Salvatore comparó con «untar mantequilla en la tostada mientras aún está en la tostadora». Además, la compañía implementó un esquema llamado llamar la atención. Inventada en el laboratorio de la Universidad de Stanford del fundador de Samba Nova, Chris Re, la atención flash es un algoritmo que acelera las redes de transformadores minimizando las escrituras en la memoria. Cuando apareció por primera vez en los puntos de referencia de MLPerf, la atención flash redujo hasta un 10 por ciento los tiempos de entrenamiento. (Intel también usó una versión de atención flash, pero no para GPT-3. En su lugar, usó el algoritmo para uno de los nuevos puntos de referencia, el ajuste fino). Usando otro software y trucos de red, Nvidia logró una aceleración del 80 por ciento en el prueba de conversión de texto a imagen, Stable Diffusion, frente a su presentación en noviembre de 2023. Nuevos puntos de referenciaMLPerf agrega nuevos puntos de referencia y actualiza los antiguos para seguir siendo relevante con lo que está sucediendo en la industria de la IA. Este año se agregó el ajuste fino y las redes neuronales gráficas. El ajuste fino requiere un LLM ya capacitado y lo especializa para su uso en un campo en particular. Nvidia, por ejemplo, tomó un modelo entrenado de 43 mil millones de parámetros y lo entrenó en los archivos de diseño y la documentación del fabricante de GPU para crear ChipNeMo, una IA destinada a aumentar la productividad de sus diseñadores de chips. En ese momento, el director de tecnología de la compañía, Bill Dally, dijo que capacitar a un LLM era como darle una educación en artes liberales, y ajustarlo era como enviarlo a la escuela de posgrado. El punto de referencia MLPerf toma un modelo Llama-2-70B previamente entrenado y pregunta el sistema para ajustarlo utilizando un conjunto de datos de documentos gubernamentales con el objetivo de generar resúmenes de documentos más precisos. Hay varias formas de realizar ajustes. MLPerf eligió uno llamado adaptación de rango bajo (LoRA). El método termina entrenando solo una pequeña porción de los parámetros del LLM, lo que lleva a una carga tres veces menor en el hardware y un menor uso de memoria y almacenamiento en comparación con otros métodos, según la organización. El otro nuevo punto de referencia involucró una red neuronal gráfica (GNN ). Estos son para problemas que pueden estar representados por un conjunto muy grande de nodos interconectados, como una red social o un sistema de recomendación. En comparación con otras tareas de IA, las GNN requieren mucha comunicación entre los nodos de una computadora. El punto de referencia entrenó una GNN en una base de datos que muestra relaciones entre autores académicos, artículos e institutos: un gráfico con 547 millones de nodos y 5.800 millones de aristas. Luego se entrenó la red neuronal para predecir la etiqueta correcta para cada nodo en el gráfico. Peleas futuras En las rondas de entrenamiento de 2025 es posible que se comparen cara a cara nuevos aceleradores de AMD, Intel y Nvidia. La serie MI300 de AMD se lanzó hace unos seis meses y se planea una actualización con memoria mejorada del MI325x para fines de 2024, con la próxima generación del MI350 programada para 2025. Intel dice que su Gaudi 3, generalmente disponible para los fabricantes de computadoras a finales de este año, aparecerá en los próximos puntos de referencia de inferencia de MLPerf. Los ejecutivos de Intel han dicho que el nuevo chip tiene la capacidad de superar al H100 en la formación de LLM. Pero la victoria puede durar poco, ya que Nvidia ha presentado una nueva arquitectura, Blackwell, que está prevista para finales de este año. Artículos de su sitio Artículos relacionados en la Web

Google, Intel y Nvidia luchan en la formación en IA generativa


La prueba pública líder de manzanas con manzanas sobre la capacidad de los sistemas informáticos para entrenar redes neuronales de aprendizaje automático ha entrado de lleno en la era de la IA generativa. A principios de este año, MLPerf agregó una prueba para entrenar modelos de lenguaje grandes (LLM), GPT-3 en particular. Este mes agrega Stable Diffusion, un generador de texto a imagen. Las computadoras con tecnología Intel y Nvidia tomaron el nuevo punto de referencia. Y los rivales continuaron su batalla anterior en el entrenamiento de GPT-3, donde Google se unió a ellos. Los tres dedicaron enormes sistemas a la tarea (la supercomputadora de 10.000 GPU de Nvidia fue la más grande jamás probada) y ese tamaño es necesario en la IA generativa. Incluso el sistema más grande de Nvidia habría necesitado ocho días de trabajo para completar completamente su trabajo de LLM. En total, 19 empresas e instituciones presentaron más de 200 resultados, lo que mostró un aumento de rendimiento de 2,8 veces en los últimos cinco meses y un aumento de 49 veces. desde que MLPerf comenzó hace cinco años. Nvidia y Microsoft prueban monstruos de 10,752 GPU. Nvidia continuó dominando las pruebas de MLPerf con sistemas fabricados con sus GPU H100. Pero la guinda del pastel fueron los resultados de Eos, la nueva supercomputadora de IA de 10.752 GPU de la compañía. Al doblar todas esas GPU para la tarea del punto de referencia de entrenamiento GPT-3, Eos hizo el trabajo en poco menos de 4 minutos. La división de computación en la nube de Microsoft, Azure, probó un sistema exactamente del mismo tamaño y quedó detrás de Eos por apenas unos segundos. (Azure impulsa el asistente de codificación CoPilot de GitHub y ChatGPT de OpenAI). Las GPU de Eos son capaces de realizar un total de 42,6 mil millones de billones de operaciones de punto flotante por segundo (exaflops). Y están unidos mediante interconexiones (Quantum-2 Infiniband de Nvidia) que transportan 1,1 millones de billones de bytes por segundo. «Algunas de estas velocidades y transmisiones son alucinantes», dice Dave Salvatore, director de evaluación comparativa de IA y computación en la nube de Nvidia. “Esta es una máquina increíblemente capaz”. Eos triplica la cantidad de GPU H100 que se han integrado en una sola máquina. Ese aumento de tres veces supuso una mejora del rendimiento de 2,8 veces, o una eficiencia de escalado del 93 por ciento. El escalado eficiente es clave para la mejora continua de la IA generativa, que se ha multiplicado por diez cada año. El punto de referencia GPT-3 que abordó Eos no es una capacitación completa de GPT-3, porque MLPerf quería que estuviera al alcance de muchas empresas. En cambio, implica entrenar el sistema hasta un cierto punto de control que demuestre que el entrenamiento habría alcanzado la precisión necesaria con el tiempo suficiente. Y estas capacitaciones toman tiempo. Extrapolando los 4 minutos de Eos significa que se necesitarían 8 días para completar el entrenamiento, y eso es en lo que podría ser la supercomputadora de IA más poderosa construida hasta ahora. Una computadora de tamaño más razonable (512 H100) tomaría 4 meses. Intel continúa cerrando en Intel presentó resultados para sistemas que utilizan el chip acelerador Gaudi 2 y para aquellos que no tenían ningún acelerador, confiando únicamente en su CPU Xeon de cuarta generación. El gran cambio con respecto al último conjunto de puntos de referencia de capacitación fue que la compañía había habilitado las capacidades de punto flotante de 8 bits (FP8) de Gaudi 2. El uso de números de menor precisión, como FP8, ha sido responsable de la mayor parte de la mejora en el rendimiento de la GPU en los últimos 10 años. El uso de FP8 en partes de GPT-3 y otras redes neuronales de transformadores donde su baja precisión no afectará la precisión ya ha mostrado su valor en los resultados H100 de Nvidia. Ahora Gaudi 2 está viendo el impulso. “Proyectamos una ganancia del 90 por ciento” al encender el FP8, dice Eitan Medina, director de operaciones de Intel Habana Labs. «Hemos entregado más de lo prometido: una reducción del 103 por ciento en el tiempo de entrenamiento para un grupo de 384 aceleradores». Ese nuevo resultado coloca al sistema Gaudi 2 a poco menos de un tercio de la velocidad de un sistema Nvidia en un por chip y tres veces más rápido que el TPUv5e de Google. En el punto de referencia de nueva generación de imágenes, Gaudi 2 también tenía aproximadamente la mitad de velocidad que el H100. GPT-3 fue el único punto de referencia que FP8 se habilitó para esta ronda, pero Medina dice que su equipo está trabajando para activarlo para otros ahora. Medina continuó argumentando que Gaudi 2 tiene un precio significativamente más bajo que el H100, por lo que tiene una ventaja en una métrica combinada de precio y rendimiento. Medina espera que la ventaja aumente con la próxima generación del chip acelerador Intel, Gaudi 3. Ese chip se producirá en volumen en 2024 y se construirá utilizando el mismo proceso de fabricación de semiconductores que la Nvidia H100. Por otra parte, Intel presentó resultados para sistemas basados ​​en sólo en CPU. Nuevamente, se muestran tiempos de entrenamiento de entre minutos y horas para varios puntos de referencia. Más allá de los puntos de referencia MLPerf, Intel también compartió algunos datos que muestran que un sistema Xeon de 4 nodos, cuyos chips incluyen el motor de matriz AMX, puede ajustar la difusión estable del generador de imágenes en menos de cinco minutos. El ajuste fino toma una red neuronal ya entrenada y la especializa en una tarea determinada. Por ejemplo, la IA del diseño de chips de Nvidia es un ajuste fino de un modelo de lenguaje grande existente llamado NeMo. Puede ver todos los resultados aquí. De los artículos de su sitio Artículos relacionados en la Web

Source link

Funciona con WordPress & Tema de Anders Norén