A medida que las grandes supercomputadoras siguen creciendo, Cerebras, con sede en Sunnyvale, California, ha adoptado un enfoque diferente. En lugar de conectar más y más GPU, la compañía ha estado comprimiendo tantos procesadores como ha podido en una oblea gigante. La principal ventaja está en las interconexiones: al conectar los procesadores en el chip, el chip de escala de oblea evita muchas de las pérdidas de velocidad computacional que surgen de muchas GPU que se comunican entre sí, así como las pérdidas por cargar datos hacia y desde la memoria. , Cerebras ha hecho alarde de las ventajas de sus chips a escala de oblea en dos resultados separados pero relacionados. Primero, la compañía demostró que su motor a escala de oblea de segunda generación, WSE-2, era significativamente más rápido que la supercomputadora más rápida del mundo, Frontier, en cálculos de dinámica molecular, el campo que subyace al plegamiento de proteínas, modelado de daños por radiación en reactores nucleares y otros problemas. en ciencia de materiales. En segundo lugar, en colaboración con la empresa de optimización de modelos de aprendizaje automático Neural Magic, Cerebras demostró que un modelo de lenguaje grande y disperso podía realizar inferencias con un costo de energía de un tercio del modelo completo sin perder precisión. Aunque los resultados se encuentran en campos muy diferentes, ambos fueron posibles gracias a las interconexiones y el rápido acceso a la memoria que permite el hardware de Cerebras. A toda velocidad por el mundo molecular“Imagina que hay un sastre y puede hacer un traje en una semana”, dice Cerebras. Andrew Feldman, director ejecutivo y cofundador. “Él compra al sastre vecino y ella también puede hacer un traje en una semana, pero no pueden trabajar juntos. Ahora pueden confeccionar dos trajes en una semana. Pero lo que no pueden hacer es fabricar un traje en tres días y medio”. Según Feldman, las GPU son como sastres que no pueden trabajar juntos, al menos cuando se trata de algunos problemas de dinámica molecular. A medida que se conectan más y más GPU, pueden simular más átomos al mismo tiempo, pero no pueden simular la misma cantidad de átomos más rápidamente. Sin embargo, el motor de escala de oblea de Cerebras escala de una manera fundamentalmente diferente. Como los chips no están limitados por el ancho de banda de interconexión, pueden comunicarse rápidamente, como dos sastres que colaboran perfectamente para confeccionar un traje en tres días y medio.“Es difícil crear materiales que tengan las propiedades adecuadas, que tengan una vida útil larga y suficiente Fuerza y ​​no te rompas”. —Tomas Oppelstrup, Laboratorio Nacional Lawrence Livermore Para demostrar esta ventaja, el equipo simuló 800.000 átomos interactuando entre sí, calculando las interacciones en incrementos de un femtosegundo a la vez. Cada paso tomó solo microsegundos para calcularse en su hardware. Aunque sigue siendo 9 órdenes de magnitud más lento que las interacciones reales, también fue 179 veces más rápido que la supercomputadora Frontier. El logro redujo efectivamente el cálculo de un año a solo dos días. Este trabajo se realizó en colaboración con Sandia, Lawrence Livermore y Los Alamos National Laboratories. Tomas Oppelstrup, científico del Laboratorio Nacional Lawrence Livermore, dice que este avance hace factible simular interacciones moleculares que antes eran inaccesibles. Oppelstrup dice que esto será particularmente útil para comprender la estabilidad a largo plazo de los materiales en condiciones extremas. “Cuando se construyen máquinas avanzadas que funcionan a altas temperaturas, como motores a reacción, reactores nucleares o reactores de fusión para la producción de energía”, afirma, “se necesitan materiales que puedan soportar estas altas temperaturas y entornos tan hostiles. Es difícil crear materiales que tengan las propiedades adecuadas, que tengan una larga vida útil y suficiente resistencia y que no se rompan”. Según Oppelstrup, poder simular el comportamiento de los materiales candidatos durante más tiempo será crucial para el proceso de diseño y desarrollo de materiales. Ilya Sharapov, ingeniero principal de Cerebras, afirma que la empresa espera ampliar las aplicaciones de su motor de escala de oblea a una clase más amplia de problemas, incluidas simulaciones de dinámica molecular de procesos biológicos y simulaciones de flujo de aire alrededor de automóviles o aviones. Reducción de modelos de lenguajes grandes A medida que los modelos de lenguajes grandes (LLM) se vuelven más populares, los costos de energía de su uso están comenzando a eclipsar los costos de capacitación. —potencialmente hasta un factor de diez en algunas estimaciones. «La inferencia es la principal carga de trabajo de la IA hoy en día porque todo el mundo utiliza ChatGPT», afirma James Wang, director de marketing de productos de Cerebras, «y su ejecución es muy costosa, especialmente a escala». ) de la inferencia es a través de la escasez, esencialmente, aprovechando el poder de los ceros. Los LLM se componen de una gran cantidad de parámetros. El modelo Llama de código abierto utilizado por Cerebras, por ejemplo, tiene 7 mil millones de parámetros. Durante la inferencia, cada uno de esos parámetros se utiliza para analizar los datos de entrada y generar la salida. Sin embargo, si una fracción significativa de esos parámetros son ceros, se pueden omitir durante el cálculo, ahorrando tiempo y energía. El problema es que omitir parámetros específicos es difícil de hacer en una GPU. La lectura de la memoria en una GPU es relativamente lenta, porque están diseñadas para leer la memoria en fragmentos, lo que significa tomar grupos de parámetros a la vez. Esto no permite que las GPU omitan ceros que se intercalan aleatoriamente en el conjunto de parámetros. Feldman, director ejecutivo de Cerebras, ofreció otra analogía: “Es equivalente a que un transportista sólo quiera mover cosas en palés porque no quiere examinar cada caja. El ancho de banda de la memoria es la capacidad de examinar cada cuadro para asegurarse de que no esté vacío. Si está vacío, déjelo a un lado y luego no lo mueva”. “Hay un millón de núcleos en un paquete muy compacto, lo que significa que los núcleos tienen una latencia muy baja y interacciones de alto ancho de banda entre ellos”. —Ilya Sharapov, CerebrasAlgunas GPU están equipadas para un tipo particular de escasez, llamado 2:4, donde exactamente dos de cada cuatro parámetros almacenados consecutivamente son ceros. Las GPU de última generación tienen terabytes por segundo de ancho de banda de memoria. El ancho de banda de la memoria del WSE-2 de Cerebras es más de mil veces mayor, 20 petabytes por segundo. Esto permite aprovechar la escasez no estructurada, lo que significa que los investigadores pueden poner a cero los parámetros según sea necesario, en cualquier parte del modelo en que se encuentren, y verificar cada uno sobre la marcha durante un cálculo. «Nuestro hardware está diseñado desde el primer día para soportar la escasez no estructurada», afirma Wang. Incluso con el hardware adecuado, poner a cero muchos de los parámetros del modelo da como resultado un modelo peor. Pero el equipo conjunto de Neural Magic y Cerebras descubrió una manera de recuperar la precisión total del modelo original. Después de reducir el 70 por ciento de los parámetros a cero, el equipo realizó dos fases más de entrenamiento para darle a los parámetros distintos de cero la oportunidad de compensar los nuevos ceros. Esta capacitación adicional utiliza aproximadamente el 7 por ciento de la energía de entrenamiento original, y las empresas descubrieron que recuperan la precisión total del modelo con este entrenamiento. El modelo más pequeño requiere un tercio del tiempo y la energía durante la inferencia que el modelo completo original. «Lo que hace posibles estas novedosas aplicaciones en nuestro hardware», dice Sharapov, «es que hay un millón de núcleos en un paquete muy compacto, lo que significa que los núcleos tienen una latencia muy baja y interacciones de alto ancho de banda entre ellos». Artículos de su sitioArtículos relacionados en la Web