El campo de aprendizaje automático se está moviendo rápidamente, y los criterios utilizaron el progreso de la medida en él tienen que competir para mantenerse al día. Un caso en cuestión, MLPERF, la competencia de aprendizaje automático bianual a veces denominado «los Juegos Olímpicos de la IA», introdujo tres nuevas pruebas de referencia, que reflejan nuevas direcciones en el campo. «Últimamente, ha sido muy difícil tratar de seguir lo que sucede en el campo», dice Miro Hodak, ingeniero AMD y compañero de trabajo de infracción de inferencias de inferencia. «Vemos que los modelos se están volviendo progresivamente más grandes, y en las últimas dos rondas hemos introducido los modelos más grandes que hemos tenido». Los chips que abordaron estos nuevos puntos de referencia provienen de los sospechosos habituales: Nvidia, Arm e Intel. Nvidia encabezó las listas, presentando su nueva GPU Blackwell Ultra, empaquetada en un diseño a escala de bastidor GB300. AMD presentó un rendimiento fuerte, presentando sus últimas GPU MI325X. Intel demostró que todavía se puede hacer una inferencia en las CPU con sus presentaciones de Xeon, pero también ingresó al juego de GPU con una presentación de Intel ARC Pro. Nuevo Benchmarkslast Round, MLPERF introdujo su punto de referencia más grande hasta el momento, un modelo de idioma grande basado en LLama3.1-403b. En esta ronda, se superaron una vez más, introduciendo un punto de referencia basado en el modelo Deepseek R1 671B, más de 1.5 veces el número de parámetros del punto de referencia más grande anterior. Como un modelo de razonamiento, Deepseek R1 pasa por varios pasos de la cadena de pensamiento cuando se acerca a una consulta. Esto significa que gran parte del cálculo ocurre durante la inferencia que en la operación normal de LLM, lo que hace que este punto de referencia sea aún más desafiante. Se afirma que los modelos de razonamiento son los más precisos, lo que los convierte en la técnica de elección para las consultas de programación de ciencias, matemáticas y complejas. Además del punto de referencia LLM más grande hasta el momento, MLPERF también introdujo el más pequeño, basado en LLAMA3.1-8B. Existe una creciente demanda de la industria de baja latencia pero razonamiento de alta precisión, explicó Taran Iyengar, Presidente del Grupo de Tarea de Inferencia MLPERF. Los pequeños LLM pueden suministrar esto, y son una excelente opción para tareas como el resumen de texto y las aplicaciones de borde. Esto lleva el recuento total de puntos de referencia basados en LLM a cuatro confusos. Incluyen el nuevo y más pequeño Llama3.1-8b de referencia; un punto de referencia LLAMA2-70B preexistente; La introducción de la última ronda del Llama3.1-403B Benchmark; y el más grande, el nuevo modelo Deepseek R1. Por lo menos, estas señales LLM no van a ninguna parte. Además de la inyección de LLMS, esta ronda de inferencia de MLPERF incluyó un nuevo modelo de voz a texto, basado en Whisper-Large-V3. Este punto de referencia es una respuesta al creciente número de aplicaciones habilitadas por voz, ya sean dispositivos inteligentes o interfaces de IA basadas en el habla. La competencia de inferencia de ThemlPerf tiene dos categorías amplias: «cerrado», que requiere el uso del modelo de red neuronal de referencia como sin modificaciones, y «abierto», donde se permiten algunas modificaciones al modelo. Dentro de ellos, hay varias subcategorías relacionadas con la forma en que se realizan las pruebas y en qué tipo de infraestructura. Nos centraremos en los resultados del servidor de centros de datos «cerrados» en aras de la cordura. Nvidia Leadssurprising No One, el mejor rendimiento por acelerador en cada punto de referencia, al menos en la categoría de ‘servidor’, fue logrado por un sistema basado en GPU NVIDIA. Nvidia también presentó el Blackwell Ultra, superando las listas en los dos puntos de referencia más grandes: Lllama3.1-405b y el razonamiento R1 Deepseek R1. Está destinado a las cargas de trabajo de IA más grandes, como los dos puntos de referencia en los que se probó. Además de las mejoras de hardware, director de productos informáticos acelerados en Nvidia Dave Salvator atribuye el éxito de Blackwell Ultra a dos cambios clave. Primero, el uso del formato de número de punto flotante de 4 bits de NVIDIA, NVFP4. «Podemos ofrecer una precisión comparable a formatos como BF16», dice Salvator, mientras usa mucho menos potencia informática. El segundo es la llamada porción desglosada. La idea detrás del servicio desglosado es que hay dos partes principales en la carga de trabajo de inferencia: la pregrama, donde la consulta («Resumen este informe») y toda su ventana de contexto (el informe) se cargan en el LLM, y la generación/decodificación, donde realmente se calcula la salida. Estas dos etapas tienen diferentes requisitos. Mientras que la previa refrigeración es pesada, la generación/decodificación depende mucho más del ancho de banda de memoria. Salvator dice que al asignar diferentes grupos de GPU a las dos etapas diferentes, Nvidia logra una ganancia de rendimiento de casi el 50 por ciento. Cerrar el nuevo chip de acelerador de AMD, MI355X, se lanzó en julio. La compañía ofreció resultados solo en la categoría «Abrir» donde se permiten modificaciones de software al modelo. Al igual que Blackwell Ultra, MI355X presenta soporte de puntos flotantes de 4 bits, así como memoria ampliada de alto ancho de banda. El MI355X venció a su predecesor, el MI325X, en el Open Llama2.1-70B de referencia por un factor de 2.7, dice Mahesh Balasubramanian, Director Senior de Marketing GPU de GPU de AMD.AmD que incluyen sistemas impulsados por AMD MI300X y MI325X GPUS. La computadora MI325X más avanzada se desempeñó de manera similar a las construidas con NVIDIA H200S en el LLLAMA2-70B, la mezcla de expertos en la prueba de los expertos, y los puntos de referencia de generación de imágenes. Esta ronda también incluyó la primera presentación híbrida, donde tanto los GPU AMD MI300X y MI325X para la misma tarea de influencia LLAMA2-70B. El uso de GPU híbridas es importante, porque las nuevas GPU están llegando a una cadencia anual, y los modelos más antiguos, desplegados en masa, no van a ninguna parte. Ser capaz de difundir cargas de trabajo entre diferentes tipos de GPU es un paso esencial. El Intervelo ingresa al juego GPU en el pasado, Intel se ha mantenido firme en que uno no necesita una GPU para hacer aprendizaje automático. De hecho, las presentaciones utilizando la CPU Xeon de Intel todavía se realizan a la par con el Nvidia L4 en el punto de referencia de detección de objetos, pero siguieron el punto de referencia del sistema de recomendación. Esta ronda, por primera vez, una GPU de Intel también hizo una muestra. El Intel Arc Pro se lanzó por primera vez en 2022. La presentación de MLPERF presentó una tarjeta gráfica llamada Maxsun Intel Arc Pro B60 Dual 48G Turbo, que contiene dos GPU y 48 gigabytes de memoria. El sistema se realizó a la par con L40S de NVIDIA en el pequeño punto de referencia LLM y lo siguió en el punto de referencia LLAMA2-70B. De los artículos de su sitio, los artículos relacionados con la web
Etiqueta: mlper
