VentureBeat presenta: AI Unleashed: un evento ejecutivo exclusivo para líderes de datos empresariales. Establezca contactos y aprenda con pares de la industria. Más información Entrenar modelos de IA será mucho más rápido en 2023, según los resultados del benchmark MLPerf Training 3.1 publicado hoy. El ritmo de la innovación en el espacio de la IA generativa es, cuanto menos, impresionante. Una parte clave de la velocidad de la innovación es la capacidad de entrenar modelos rápidamente, que es algo que el punto de referencia de entrenamiento MLCommons MLPerf rastrea y mide. MLCommons es un consorcio de ingeniería abierto centrado en puntos de referencia, conjuntos de datos y mejores prácticas de ML para acelerar el desarrollo de la IA. El punto de referencia MLPerf Training 3.1 incluyó presentaciones de 19 proveedores que generaron más de 200 resultados de rendimiento. Entre las pruebas se encontraban puntos de referencia para el entrenamiento de modelos de lenguaje grande (LLM) con GPT-3 y un nuevo punto de referencia para entrenar el modelo de generación de texto a imagen de difusión estable de código abierto. «Tenemos más de 200 resultados de rendimiento y las mejoras en el rendimiento son bastante sustanciales, entre un 50 % y casi hasta 3 veces mejores», dijo el director ejecutivo de MLCommons, David Kanter, durante una conferencia de prensa. VB Event AI Unleashed Una velada exclusiva de conocimientos y networking a la que solo se puede invitar, diseñada para ejecutivos empresariales senior que supervisan pilas de datos y estrategias. Más información La formación LLM recibe un gran impulso que está superando la Ley de Moore. De particular interés entre todos los resultados en el punto de referencia MLPerf Training 3.1 son los números sobre la formación en modelos de lenguaje grande (LLM). No fue hasta junio que MLcommons incluyó por primera vez datos sobre la formación LLM. Ahora, solo unos meses después, los puntos de referencia de capacitación de MLPerf 3.1 muestran una ganancia de casi 3 veces en el rendimiento de la capacitación de LLM. «Es aproximadamente 2,8 veces más rápido en comparación con el punto de referencia de capacitación LLM más rápido en la primera ronda [in June]al más rápido en esta ronda”, dijo Kanter. «No sé si eso se mantendrá en la siguiente ronda y en la siguiente, pero es una mejora bastante impresionante en el rendimiento y representa capacidades tremendas». En opinión de Kanter, las mejoras en el rendimiento durante los últimos cinco meses para el entrenamiento de IA están superando lo que predeciría la Ley de Moore. La Ley de Moore pronostica que el rendimiento informático se duplicará cada dos años. Kanter dijo que la industria de la IA está escalando la arquitectura de hardware y el software más rápido de lo que predeciría la Ley de Moore. «MLPerf es hasta cierto punto un barómetro del progreso de toda la industria», afirmó Kanter. Nvidia, Intel y Google cuentan con grandes avances en la capacitación en IA. Intel, Nvidia y Google han logrado avances significativos en los últimos meses que permiten resultados de capacitación LLM más rápidos en los puntos de referencia MLPerf Training 3.1. Intel afirma que su acelerador Habana Gaudi 2 fue capaz de generar un aumento del rendimiento de la velocidad de entrenamiento del 103%, con respecto a los resultados del entrenamiento MLPerf de junio utilizando una combinación de técnicas que incluyen tipos de datos de punto flotante de 8 bits (FP8). «Habilitamos el FP8 utilizando la misma pila de software y logramos mejorar nuestros resultados con el mismo hardware», comentó Itay Hubara, investigador senior de Intel durante la sesión informativa de MLCommons. «Prometimos hacerlo en la última presentación y lo cumplimos». Google también afirma haber ganado en capacitación, con su Cloud TPU v5e, que solo estuvo disponible de forma generalizada el 29 de agosto. Al igual que Intel, Google está utilizando FP8 para obtener el mejor rendimiento de capacitación posible. Vaibhav Singh, gerente de producto para aceleradores en la nube de Google, también destacó las capacidades de escalamiento que Google ha desarrollado, que incluyen la tecnología multislice Cloud TPU. «Lo que hace Cloud TPU multislice es que tiene la capacidad de escalar a través de la red del centro de datos», explicó Singh durante la sesión informativa de MLCommons. «Con la tecnología de escalado multislice, pudimos obtener un rendimiento de escalado realmente bueno hasta 1024 nodos utilizando 4096 chips TPU v5e», dijo Singh. Nvidia utilizó su supercomputadora EOS para potenciar el entrenamiento. Para no quedarse atrás en escala, Nvidia tiene su propia supercomputadora conocida como EOS, que utilizó para realizar sus pruebas comparativas de MLPerf Training 3.1. Nvidia habló por primera vez sobre sus planes iniciales para construir EOS en 2022. Nvidia informó que sus resultados de entrenamiento LLM para MLPerf fueron 2,8 veces más rápidos que en junio para entrenar un modelo basado en GPT-3. En una sesión informativa de Nvidia sobre los resultados de MLcommons, Dave Salvator, director de productos de computación acelerada de Nvidia, dijo que EOS tiene 10.752 GPU conectadas a través de Nvidia Quantum-2 InfiniBand funcionando a 400 gigabits por segundo. El sistema dispone de 860 terabytes de memoria HBM3. Savator señaló que Nvidia también ha trabajado en mejorar el software para obtener el mejor resultado posible para la capacitación. «Algunas de las velocidades y números de avance aquí son alucinantes», dijo Salvator. «En términos de computación de IA, son más de 40 exaflops de computación de IA, lo cual es simplemente extraordinario». La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link