La plataforma GPU más nueva de NVIDIA es Blackwell (Figura A), que empresas como AWS, Microsoft y Google planean adoptar para la IA generativa y otras tareas informáticas modernas, anunció el CEO de NVIDIA, Jensen Huang, durante el discurso de apertura en la conferencia NVIDIA GTC el 18 de marzo en San José, California. Figura A La arquitectura NVIDIA Blackwell. Imagen: Los productos basados ​​en NVIDIA Blackwell ingresarán al mercado de los socios de NVIDIA en todo el mundo a fines de 2024. Huang anunció una larga lista de tecnologías y servicios adicionales de NVIDIA y sus socios, hablando de la IA generativa como solo una faceta de la computación acelerada. «Cuando te aceleras, tu infraestructura son las GPU CUDA», dijo Huang, refiriéndose a CUDA, la plataforma informática paralela y el modelo de programación de NVIDIA. «Y cuando eso sucede, es la misma infraestructura que para la IA generativa». Blackwell permite el entrenamiento y la inferencia de modelos de lenguaje grandes. La plataforma Blackwell GPU contiene dos matrices conectadas por una interconexión de chip a chip de 10 terabytes por segundo, lo que significa que cada lado puede funcionar esencialmente como si «las dos matrices pensaran que es un solo chip», dijo Huang. Tiene 208 mil millones de transistores y se fabrica utilizando el proceso TSMC 4NP de 208 mil millones de NVIDIA. Cuenta con un ancho de banda de memoria de 8 TB/S y 20 pentaFLOPS de rendimiento de IA. Para las empresas, esto significa que Blackwell puede realizar entrenamiento e inferencia para modelos de IA escalando hasta 10 billones de parámetros, dijo NVIDIA. Blackwell se ve reforzado por las siguientes tecnologías: La segunda generación de TensorRT-LLM y NeMo Megatron, ambas de NVIDIA. Marcos para duplicar el tamaño de cálculo y modelo en comparación con el motor transformador de primera generación. Computación confidencial con protocolos de cifrado de interfaz nativos para privacidad y seguridad. Un motor de descompresión dedicado para acelerar consultas de bases de datos en análisis de datos y ciencia de datos. En cuanto a la seguridad, Huang dijo que el motor de confiabilidad “realiza una autoprueba, una prueba dentro del sistema, de cada bit de memoria en el chip Blackwell y de toda la memoria conectada a él. Es como si enviáramos el chip Blackwell con su propio probador”. Los productos basados ​​en Blackwell estarán disponibles a través de proveedores de servicios de nube asociados, empresas del programa NVIDIA Cloud Partner y nubes soberanas seleccionadas. La línea de GPU Blackwell sigue a la línea de GPU Grace Hopper, que debutó en 2022 (Figura B). NVIDIA dice que Blackwell ejecutará IA generativa en tiempo real en LLM de billones de parámetros a un costo 25 veces menor y un consumo de energía menor que la línea Hopper. Figura B El director ejecutivo de NVIDIA, Jensen Huang, muestra las GPU Blackwell (izquierda) y Hopper (derecha) en NVIDIA GTC 2024 en San José, California, el 18 de marzo. Imagen: Megan Crouse/TechRepublic El superchip NVIDIA GB200 Grace Blackwell conecta varias GPU Blackwell junto con el Blackwell GPUs, la compañía anunció el superchip NVIDIA GB200 Grace Blackwell, que vincula dos GPU NVIDIA B200 Tensor Core a la CPU NVIDIA Grace, proporcionando una nueva plataforma combinada para la inferencia LLM. El Superchip NVIDIA GB200 Grace Blackwell se puede vincular con las plataformas Ethernet NVIDIA Quantum-X800 InfiniBand y Spectrum-X800 recientemente anunciadas por la compañía para velocidades de hasta 800 GB/S. El GB200 estará disponible en NVIDIA DGX Cloud y a través de instancias de AWS, Google Cloud y Oracle Cloud Infrastructure a finales de este año. El nuevo diseño de servidor mira hacia modelos de IA de billones de parámetros El GB200 es un componente del recientemente anunciado GB200 NVL72, un diseño de servidor a escala de rack que incluye 36 CPU Grace y 72 GPU Blackwell para 1,8 exaFLOP de rendimiento de IA. NVIDIA espera posibles casos de uso para LLM masivos de billones de parámetros, incluida la memoria persistente de conversaciones, aplicaciones científicas complejas y modelos multimodales. El GB200 NVL72 combina la quinta generación de conectores NVLink (5000 cables NVLink) y el superchip GB200 Grace Blackwell para obtener una enorme cantidad de potencia informática que Huang llama «un sistema de IA exoflops en un solo bastidor». «Eso es más que el ancho de banda promedio de Internet… básicamente podríamos enviar todo a todo el mundo», dijo Huang. «Nuestro objetivo es reducir continuamente el coste y la energía (están directamente relacionados entre sí) de la informática», afirmó Huang. Para enfriar el GB200 NVL72 se necesitan dos litros de agua por segundo. La próxima generación de NVLink ofrece una arquitectura de centro de datos acelerada. La quinta generación de NVLink proporciona un rendimiento bidireccional de 1,8 TB/s por comunicación GPU entre hasta 576 GPU. Esta iteración de NVLink está pensada para utilizarse en los LLM complejos más potentes disponibles en la actualidad. «En el futuro, los centros de datos serán considerados como una fábrica de inteligencia artificial», dijo Huang. Presentación de los microservicios de inferencia de NVIDIA Otro elemento de la posible «fábrica de IA» es el microservicio de inferencia de NVIDIA, o NIM, que Huang describió como «una nueva forma de recibir y empaquetar software». Los NIM de NVIDIA son microservicios que contienen API, código específico de dominio, motores de inferencia optimizados y tiempo de ejecución empresarial necesarios para ejecutar IA generativa. Estos microservicios nativos de la nube se pueden optimizar según la cantidad de GPU que utiliza el cliente y se pueden ejecutar en la nube o en un centro de datos propio. Los NIM permiten a los desarrolladores utilizar API, NVIDIA CUDA y Kubernetes en un solo paquete. VER: Python sigue siendo el lenguaje de programación más popular según el índice TIOBE. (TechRepublic) Los NIM aprovechan la IA para crear IA, simplificando parte del trabajo pesado, como la inferencia y la capacitación, necesarios para crear chatbots. A través de bibliotecas CUDA de dominio específico, los NIM se pueden personalizar para industrias muy específicas, como la atención médica. En lugar de escribir código para programar una IA, dijo Huang, los desarrolladores pueden “reunir un equipo de IA” que trabajen en el proceso dentro del NIM. «Queremos construir chatbots (copilotos de IA) que funcionen junto con nuestros diseñadores», dijo Huang. Los NIM estarán disponibles a partir del 18 de marzo. Los desarrolladores pueden experimentar con los NIM sin costo alguno y ejecutarlos a través de una suscripción a NVIDIA AI Enterprise 5.0. Los NIM están disponibles en Amazon SageMaker, Google Kubernetes Engine y Microsoft Azure AI, y pueden interoperar con los marcos de IA Deepset, LangChain y LlamaIndex. Nuevas herramientas lanzadas para NVIDIA AI Enterprise en la versión 5.0 NVIDIA lanzó la versión 5.0 de AI Enterprise, su plataforma de implementación de IA destinada a ayudar a las organizaciones a implementar productos de IA generativa para sus clientes. 5.0 de NVIDIA AI Enterprise agrega lo siguiente: NIM. Microservicios CUDA-X para una amplia variedad de casos de uso de IA acelerada por GPU. AI Workbench, un conjunto de herramientas para desarrolladores. Soporte para la plataforma Red Hat OpenStack. Soporte ampliado para nuevas GPU NVIDIA, hardware de red y software de virtualización. El operador de modelo de lenguaje grande de generación aumentada de recuperación de NVIDIA se encuentra ahora en acceso temprano para AI Enterprise 5.0. AI Enterprise 5.0 está disponible a través de Cisco, Dell Technologies, HP, HPE, Lenovo, Supermicro y otros proveedores. Otros anuncios importantes de NVIDIA en GTC 2024 Huang anunció una amplia gama de nuevos productos y servicios en computación acelerada e inteligencia artificial generativa durante el discurso de apertura de NVIDIA GTC 2024. NVIDIA anunció cuPQC, una biblioteca utilizada para acelerar la criptografía poscuántica. Los desarrolladores que trabajan en criptografía poscuántica pueden comunicarse con NVIDIA para obtener actualizaciones sobre la disponibilidad. La serie X800 de conmutadores de red de NVIDIA acelera la infraestructura de IA. En concreto, la serie X800 contiene los conmutadores Ethernet NVIDIA Quantum-X800 InfiniBand o NVIDIA Spectrum-X800, el conmutador NVIDIA Quantum Q3400 y el NVIDIA ConnectXR-8 SuperNIC. Los conmutadores X800 estarán disponibles en 2025. Las principales asociaciones detalladas durante la conferencia magistral de NVIDIA incluyen: La plataforma de IA de pila completa de NVIDIA estará en Enterprise AI de Oracle a partir del 18 de marzo. AWS brindará acceso a las instancias Amazon EC2 basadas en GPU NVIDIA Grace Blackwell y a NVIDIA DGX Cloud con seguridad Blackwell. NVIDIA acelerará Google Cloud con la plataforma informática NVIDIA Grace Blackwell AI y el servicio NVIDIA DGX Cloud, que llegarán a Google Cloud. Google aún no ha confirmado una fecha de disponibilidad, aunque es probable que sea a finales de 2024. Además, la plataforma DGX Cloud con tecnología NVIDIA H100 estará disponible de forma general en Google Cloud a partir del 18 de marzo. Oracle utilizará NVIDIA Grace Blackwell en su OCI Supercluster, OCI Compute y NVIDIA DGX Cloud en Oracle Cloud Infrastructure. Algunos servicios soberanos de IA combinados de Oracle y NVIDIA estarán disponibles a partir del 18 de marzo. Microsoft adoptará el Superchip NVIDIA Grace Blackwell para acelerar Azure. Se puede esperar la disponibilidad más adelante en 2024. Dell utilizará la infraestructura de inteligencia artificial y el paquete de software de NVIDIA para crear Dell AI Factory, una solución empresarial de inteligencia artificial de extremo a extremo, disponible a partir del 18 de marzo a través de canales tradicionales y Dell APEX. En un momento futuro no revelado, Dell utilizará el superchip NVIDIA Grace Blackwell como base para una arquitectura de refrigeración líquida, de alta densidad y a escala de rack. El Superchip será compatible con los servidores PowerEdge de Dell. SAP agregará capacidades de generación aumentada de recuperación de NVIDIA a su copiloto Joule. Además, SAP utilizará NIM de NVIDIA y otros servicios conjuntos. «Toda la industria se está preparando para Blackwell», dijo Huang. Competidores de los chips de IA de NVIDIA NVIDIA compite principalmente con AMD e Intel en lo que respecta al suministro de IA empresarial. Qualcomm, SambaNova, Groq y una amplia variedad de proveedores de servicios en la nube juegan en el mismo espacio en lo que respecta a la inferencia y el entrenamiento de IA generativa. AWS tiene sus propias plataformas de inferencia y formación: Inferentia y Trainium. Además de asociarse con NVIDIA en una amplia variedad de productos, Microsoft tiene su propio chip de inferencia y entrenamiento de IA: el Maia 100 AI Accelerator en Azure. Descargo de responsabilidad: NVIDIA pagó mi pasaje aéreo, alojamiento y algunas comidas para el evento NVIDIA GTC que se llevó a cabo del 18 al 21 de marzo en San José, California.

Source link