Ampliar / Ilustración de un cerebro dentro de una bombilla. Los investigadores afirman haber desarrollado una nueva forma de ejecutar modelos de lenguaje de IA de manera más eficiente al eliminar la multiplicación de matrices del proceso. Esto rediseña fundamentalmente las operaciones de redes neuronales que actualmente son aceleradas por chips GPU. Los hallazgos, detallados en un artículo preimpreso reciente de investigadores de la Universidad de California Santa Cruz, UC Davis, LuxiTech y la Universidad de Soochow, podrían tener profundas implicaciones para el impacto ambiental y los costos operativos de los sistemas de IA. La multiplicación de matrices (a menudo abreviada como «MatMul») está en el centro de la mayoría de las tareas computacionales de redes neuronales en la actualidad, y las GPU son particularmente buenas para ejecutar las matemáticas rápidamente porque pueden realizar una gran cantidad de operaciones de multiplicación en paralelo. Esa capacidad convirtió momentáneamente a Nvidia en la empresa más valiosa del mundo la semana pasada; Actualmente, la compañía tiene una participación de mercado estimada del 98 por ciento en GPU para centros de datos, que se usan comúnmente para impulsar sistemas de inteligencia artificial como ChatGPT y Google Gemini. En el nuevo artículo, titulado «Modelado de lenguaje escalable sin MatMul», los investigadores describen la creación de un modelo personalizado de 2.700 millones de parámetros sin utilizar MatMul que presenta un rendimiento similar a los modelos de lenguaje grande (LLM) convencionales. También demuestran cómo ejecutar un modelo de 1.300 millones de parámetros a 23,8 tokens por segundo en una GPU acelerada por un chip FPGA programado a medida que utiliza aproximadamente 13 vatios de potencia (sin contar el consumo de energía de la GPU). La implicación es que una FPGA más eficiente «allana el camino para el desarrollo de arquitecturas más eficientes y amigables con el hardware», escriben. Anuncio El documento no proporciona estimaciones de potencia para los LLM convencionales, pero esta publicación de UC Santa Cruz estima alrededor de 700 vatios para un modelo convencional. Sin embargo, según nuestra experiencia, puedes ejecutar una versión de 2.7B de parámetros de Llama 2 de manera competente en una PC doméstica con un RTX 3060 (que usa alrededor de 200 vatios pico) alimentado por una fuente de alimentación de 500 vatios. Entonces, si en teoría pudiera ejecutar completamente un LLM con solo 13 vatios en una FPGA (sin GPU), eso significaría una disminución de 38 veces en el uso de energía. La técnica aún no ha sido revisada por pares, pero los investigadores (Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou y Jason Eshraghian) afirman que su trabajo desafía el paradigma predominante que Las operaciones de multiplicación de matrices son indispensables para construir modelos de lenguaje de alto rendimiento. Sostienen que su enfoque podría hacer que los modelos de lenguajes grandes sean más accesibles, eficientes y sostenibles, particularmente para su implementación en hardware con recursos limitados, como los teléfonos inteligentes. Acabar con las matemáticas matriciales En el artículo, los investigadores mencionan BitNet (la llamada técnica de transformador de «1 bit» que circuló como preimpresión en octubre) como un precursor importante de su trabajo. Según los autores, BitNet demostró la viabilidad del uso de pesos binarios y ternarios en modelos de lenguaje, escalando con éxito hasta 3 mil millones de parámetros manteniendo un rendimiento competitivo. Sin embargo, señalan que BitNet todavía dependía de la multiplicación de matrices en su mecanismo de autoatención. Las limitaciones de BitNet sirvieron de motivación para el estudio actual, impulsándolos a desarrollar una arquitectura completamente «libre de MatMul» que pudiera mantener el rendimiento y al mismo tiempo eliminar las multiplicaciones de matrices incluso en el mecanismo de atención.