Para muchos está claro que la IA se ha convertido en una parte importante de la tecnología. Sin embargo, surge la pregunta de qué empresa está tomando la delantera en términos de IA. En términos de GPU, esto es particularmente emocionante, razón por la cual Stability AI utilizó Stable Diffusion para comparar los aceleradores de GPU Gaudi 2 de Intel y H100 y A100 de NVIDIA. Fuente de la imagen: Stability AI En primer lugar, ¿qué es la difusión estable? Es un generador de IA que puede procesar texto en imágenes realistas. La empresa responsable de esto es Stability AI. Con Stable Diffusion 3, ofrece un número de parámetros de 800M a 8B. Para el análisis se utilizó la versión del parámetro 2B. El benchmark se prueba en 2 nodos, es decir, 16 aceleradores, y arroja un resultado interesante. El sistema Gaudi 2 procesó 927 imágenes de entrenamiento por segundo y logró así un rendimiento 1,5 veces mayor que el H100-80GB de NVIDIA. Además, se podría instalar un tamaño de pila de 32 por acelerador en la memoria de alto ancho de banda (HBM2E) de 96 GB de Gaudi 2 para aumentar aún más la velocidad de entrenamiento a 1254 imágenes por segundo. Fuente de la imagen: Stability AI Luego continuamos con 32 nodos, lo que corresponde a 256 aceleradores. Aquí también Gaudí2 pudo mostrar una actuación clara. Generaba 12.654 imágenes por segundo y, por tanto, era capaz de generar algo más de 3 veces más imágenes que el A100-80GB. Fuente de la imagen: Stability AI También se utilizó un segundo modelo para las pruebas. Este es Stable Beluga 2.5 70B y es una versión sintonizada de LLaMA 2 70B, que se basa en el modelo Stable Beluga 2. La empresa llevó a cabo este benchmark de formación en 256 aceleradores Gaudí 2. Al ejecutar el código PyTorch sin optimizaciones adicionales, el rendimiento total promedio fue de 116,777 tokens por segundo. Para el modelo de lenguaje 70B en Gaudi 2, una prueba de interferencia generó 673 tokens/segundo por acelerador, utilizando un tamaño de token de entrada de 128 y un tamaño de token de salida de 2048. En comparación con TensorRT-LLM, Gaudi 2 parece ser un 28% más rápido que los 525 tokens por segundo en la A100. Según Stable Diffussion, se espera que Gaudi 2 supere a los chips A100 con optimizaciones adicionales, ya que actualmente el chip A100 tiene un rendimiento un 40% mejor para generar imágenes, principalmente debido a la optimización de TensorRT. Sin embargo, sólo es una cuestión de cuánto tiempo será así. En las pruebas de inferencia con el modelo de parámetros Stable Diffusion 3 8B, los chips Gaudi 2 ofrecen una velocidad de inferencia similar a la de los chips Nvidia A100 que utilizan PyTorch base. Sin embargo, con la optimización de TensorRT, los chips A100 producen imágenes un 40% más rápido que Gaudi 2. Anticipamos que con una mayor optimización, Gaudi 2 pronto superará a los A100 en este modelo. En pruebas anteriores en nuestro modelo SDXL con PyTorch base, Gaudi 2 genera una imagen de 1024 × 1024 en 30 pasos en 3,2 segundos, frente a 3,6 segundos para PyTorch en A100 y 2,7 segundos para una generación con TensorRT en un A100. Fuente: Estabilidad AI
Source link
Deja una respuesta