Meta ha anunciado dos nuevos grupos de GPU que permitirán a la empresa proporcionar una infraestructura mejorada para hacer frente a las exigentes demandas informáticas de los sistemas de inteligencia artificial (IA). Marcando una «importante inversión en el futuro de la IA de Meta», la empresa anunció la incorporación de dos GPU de 24k. Clústeres a escala de centro de datos que cuentan con mayor rendimiento y confiabilidad para cargas de trabajo de IA. Estas GPU admitirán tanto el modelo Llama 2 actual de Meta como su próximo modelo Llama 3, así como los proyectos más amplios de investigación y desarrollo de la compañía en IA generativa y otras áreas. El anuncio fue descrito por la empresa como «un paso en nuestra ambiciosa hoja de ruta de infraestructura», y verá al gigante tecnológico adquirir 350.000 GPU Nvidia H100 para expandir su cartera. Meta dijo que el proyecto de expansión entregará una potencia informática total equivalente a casi 600.000 H100 al finalización.“Al mirar hacia el futuro, reconocemos que lo que funcionó ayer o hoy puede no ser suficiente para las necesidades del mañana”, dijo la empresa en un comunicado. “Es por eso que estamos constantemente evaluando y mejorando cada aspecto de nuestra infraestructura, desde desde las capas física y virtual hasta la capa de software y más allá”. Meta se centró en construir sistemas de inteligencia artificial “de extremo a extremo” en su último par de clústeres de GPU, enfatizando la experiencia de investigadores y desarrolladores como medio para guiar la producción. Con estructuras de red de alto rendimiento que funcionan junto con 24,576 GPU Nvidia Tensor Core H100, estos nuevos clústeres pueden admitir modelos «más grandes y complejos» que los clústeres RSC anteriores de Meta. Uno de los nuevos clústeres se construyó con «acceso remoto directo a memoria (RDMA) ) sobre Ethernet convergente (RoCE)”, mientras que el otro presenta un “tejido Nvidia Quantum 2 InfiniBand”, ambos orientados a una funcionalidad de red mejorada. Ambos clústeres se construyeron utilizando la plataforma de hardware de GPU abierta interna de Meta, Grand Teton, que a su vez se basa en generaciones de IA que integran «interfaces de energía, control, computación y estructura en un solo chasis para un mejor rendimiento general». «Grand Teton nos permite construir nuevos clústeres de una manera diseñada específicamente para aplicaciones actuales y futuras en Meta, «, dijo la empresa. La IA generativa también consume datos en grandes volúmenes, dijo la empresa, lo que significa que la próxima generación de GPU debe tener en cuenta el almacenamiento. El sistema de almacenamiento Linux «de cosecha propia» de Meta hace esto en sus últimas ofertas de clústeres de GPU, que funcionará en paralelo con una versión de la solución de almacenamiento distribuido Tectonic de Meta. Aunque Meta informa que hubo problemas de rendimiento iniciales con estos clústeres más grandes, los cambios en su programador de trabajos interno ayudaron a optimizar ambos clústeres de GPU para «lograr el rendimiento excelente y esperado».

Source link