Hot Chips En 2023, la arquitectura Superchip de Nvidia introdujo un nuevo modelo de programación para cargas de trabajo aceleradas al acoplar la CPU a la GPU a través de una tela NVLink de alta velocidad que hace que PCIe se sienta positivamente glacial. El único problema? Fuera del centro de datos o la nube, no había muchas maneras para que los desarrolladores lo aprovechen. Los dígitos del proyecto de Nvidia, desde que se renombraron como DGX Spark, tienen como objetivo cambiar eso al traer una versión miniaturizada de la arquitectura de superchip de Nvidia llamada GB10 a las masas, o al menos a los desarrolladores con el norte de $ 2,999 quemando un agujero en sus bolsillos. En Hot Chips esta semana, el arquitecto principal de GB10 Andi Skende ofreció una mirada más cercana a su arquitectura. Fabbed en la tecnología de fabricación de 3NM de TSMC, el GB10 está compuesto por dos calificaciones distintas: un mosaico de CPU diseñado por MediaTek y un mosaico GPU diseñado por NVIDIA. Estos dos troqueles se unen utilizando la tecnología de embalaje avanzada 2.5D de TSMC y se conectan a través de la interconexión patentada de chip a chip Nvlink de NVIDIA, que proporciona 600 GB/s de ancho de banda bidireccional. Aquí hay un desglose de la IP que constituye el GB10. MediaTek desarrolló todo en naranja, mientras que el verde muestra elementos construidos por Nvidia: haga clic para ampliar el troquel de CPU o las casas S-muerte de 20 núcleos V9.2 en dos clústeres en una disposición grande y grande con un número igual de núcleos X925 y Cortex A725. Estos grupos de cómputo son alimentados por 32 MB de L3 (16 MB por clúster), así como un 16 MB adicional de caché L4 diseñado para suavizar las comunicaciones entre los motores de cómputo del GB10. Los detalles sobre los gráficos del GB10 mueren o G-more, desafortunadamente, siguen siendo bastante delgados. Nvidia nos dice que el chip entregará aproximadamente 1 petaflop de rendimiento máximo de FP4 con escasez o aproximadamente 31 teraflops de cómputo de precisión único (FP32). Eso pone el rendimiento de AI de GB10 y, por extensión, ai aproximadamente a la par con un RTX 5070, que notaremos tiene un MSRP de aproximadamente $ 550. Sin embargo, el rendimiento de los puntos flotantes no cuenta la historia completa. Por un lado, el GB10 es mucho más eficiente en el poder. Mientras que el RTX 5070 tiene un TDP de 250 vatios, el GB10 está clasificado por solo 140 vatios. El GB10 también está equipado con 128 GB de VRAM en comparación con el 5070 de 12 GB. La capacidad de amplitud VRAM es esencial para los tipos de cargas de trabajo para las que está diseñada DGX Spark, ya que incluso a la precisión FP4, los pesos del modelo aún requieren aproximadamente 500 MB por cada mil millones de parámetros. A diferencia de sus hermanos más grandes, el GB200 y el GB300, el GB10 no usa HBM ultra rápido. En cambio, debido a la potencia y, sin duda, las limitaciones de costos, NVIDIA ha optado por la memoria LPDDR5X registrada a un 9400MT/s relativamente velocidad. Debido a que esa memoria se combina con el bus de memoria de 256 bits de CPU Die, el GB10 ofrece entre 273 GB/sy 301GB/s de ancho de banda. Como recordatorio, el ancho de banda de la memoria es un indicador clave del rendimiento de la inferencia: cuanto más rápido sea su memoria, más rápido puede producir tokens. La decisión de usar LPDDR muestra que NVIDIA claramente ha tenido que hacer un compromiso entre la capacidad de memoria y el ancho de banda aquí. Dicho esto, el DGX Spark está diseñado para mucho más que solo ejecutar modelos locales. NVIDIA está posicionando la estación de trabajo de IA en miniatura como plataforma de desarrollo para la creación de prototipos y el ajuste fino de modelos además de la inferencia local. El ajuste fino, como hemos explorado anteriormente, es una tarea particularmente cómputo y intensiva en memoria, incluso cuando se usa la adaptación y cuantificación de bajo rango para minimizar los requisitos de cálculo. En este escenario, la capacidad de cálculo y memoria es más importante que el ancho de banda. Según NVIDIA, los 128 GB de LPDDR5X de la Spark son suficientes para ajustar un modelo de parámetros de 70 mil millones y ejecutar inferencias de hasta 200 mil millones de parámetros. Si necesita más capacidad, el GB10 se combina con una NIC ConnectX-7 con un par de puertos de 200 Gbe que permiten distribuir las cargas de trabajo en un par de chispas DGX, duplicando efectivamente sus capacidades de ajuste e inferencia fina. Quizás lo más importante, debido a que el GB10 se basa en las mismas tecnologías que sus hermanos de centro de datos, las cargas de trabajo desarrolladas en la estación de trabajo miniaturizada no necesitan ser refactoradas para la implementación de producción. ®
Deja una respuesta