Cerebras demostró cómo su inferencia de IA puede ser de 10 a 20 veces más rápida que los servicios de inferencia de IA en la nube convencionales. Cerebras SystemsEl mercado de ofrecer predicciones a partir de inteligencia artificial generativa, lo que se conoce como inferencia, es un gran negocio, y se informa que OpenAI está en camino de recaudar $ 3.4 mil millones en ingresos este año al ofrecer predicciones de ChatGPT. Con un pastel tan grande para la inferencia, hay mucho espacio para los desafiantes. Además: la ingeniería de IA es la próxima frontera para los avances tecnológicosEl martes, el fabricante de chips de IA Cerebras Systems de Sunnyvale, California, presentó su servicio de inferencia de IA, que afirma es el más rápido del mundo y, en muchos casos, de diez a veinte veces más rápido que los sistemas construidos con la tecnología dominante, la unidad de procesamiento gráfico H100 «Hopper» de Nvidia, o GPU. «Nunca hemos visto un mercado de tecnología creciendo tan rápido», dijo el cofundador y CEO de Cebrebras, Andrew Feldman, en una conferencia de prensa en San Francisco. «Tenemos la intención de conseguir una cuota significativa». Actualmente, Nvidia domina el mercado tanto del entrenamiento de redes neuronales, incluida la IA generativa, como de las ventas de chips aceleradores para realizar inferencias. El plan de ataque de Cerebras supone un pequeño giro para la empresa, que tiene ocho años de existencia. Desde que presentó su primer ordenador de IA en 2019, la empresa se ha centrado en la venta de máquinas para desafiar a Nvidia en el entrenamiento de redes neuronales. El nuevo servicio pone esas máquinas tras bambalinas, creando un modelo de ingresos basado no en las ventas de máquinas, sino en el volumen de transacciones. Además: Los mejores cursos gratuitos de IA en 2024 Cerebras ha establecido sus propios centros de datos de inferencia en varias ubicaciones y alquilará capacidad de inferencia por una tarifa por consulta. También venderá sus ordenadores CS-3 a empresas que deseen realizar inferencias en sus instalaciones, ya sea gestionadas por el cliente o como un servicio gestionado por Cerebras. «Estamos en la era de la inferencia por acceso telefónico de la Gen AI», bromeó Feldman, y reprodujo el sonido de un viejo módem de acceso telefónico, mientras el servicio AWS luchaba por terminar la tarea, ante las risas de la prensa. Tiernan Ray para ZDNETEl ordenador Cerebras CS-3, un sistema completo que contiene el chip informático más grande del mundo, el WSE-3, produce resultados de inferencia cuando se le solicita que son «los más rápidos de la industria, sin lugar a dudas, no por un poco, sino por mucho», dijo Feldman. Feldman anuncia el servicio como veinte veces más rápido que los servicios de inferencia ejecutados por Microsoft Azure, Amazon AWS y varios otros, medidos por la cantidad de tokens por segundo que se pueden generar en la respuesta para cada usuario. En una vívida demostración para la prensa, Feldman presionó el botón en indicaciones idénticas que se ejecutaban una al lado de la otra en la inferencia de Cerebras y AWS de Amazon y otros. El trabajo de Cerebras terminó instantáneamente, procesando a una velocidad de 1.832 tokens por segundo, mientras que el servicio de la competencia avanzó con dificultad a solo 93 tokens por segundo. El lado de AWS siguió arrastrándose, tardando varios segundos en entregar el resultado del chat terminado, una sensación familiar para cualquiera que use ChatGPT y sus similares. «Todo el mundo está por debajo de los 300 tokens por segundo por usuario», señaló Feldman. «Estamos en la era de la inferencia de Gen AI por acceso telefónico», bromeó Feldman a los periodistas, y reprodujo el sonido de un viejo módem de acceso telefónico, mientras el servicio de AWS luchaba por terminar la tarea, ante las risas de la prensa. Cerebras SystemsFeldman calificó la velocidad de Cerebras como «velocidad imposible de GPU». Señaló que el servicio es diez veces más rápido que un sistema informático Nvidia DGX de 8 vías. El servicio está disponible en versiones gratuitas, de pago por uso y de «rendimiento aprovisionado» para clientes que necesitan un rendimiento de inferencia garantizado. (Puede probar el servicio de forma gratuita en el sitio web de Cerebras proporcionando su nombre de usuario de Gmail o de la nube de Microsoft). Además: Cómo utilicé ChatGPT para escanear 170.000 líneas de código en segundos y ahorrarme horas de trabajo de detectiveLa mayor eficiencia del servicio, dijo Feldman, trae enormes beneficios en términos de costos. La oferta de Cerebras es «100 veces más rentable para las cargas de trabajo de IA» que AWS y el resto. El servicio tiene un precio de 60 centavos por token por usuario para ejecutar el modelo de lenguaje grande de código abierto Llama 3.1 70B de Meta, por ejemplo. El mismo servicio cuesta $2,90 por token del proveedor de nube promedio, Cerebras SystemsPero la velocidad para obtener la respuesta no es el único ángulo. En una inteligente vuelta de tuerca al juego de la velocidad, Feldman y el tecnólogo jefe Sean Lie, que participaron en la misma rueda de prensa, expusieron un argumento convincente de que ahorrar tiempo en las tareas también conduce a un salto cualitativo en los tipos de inferencia que son posibles, desde tareas de múltiples consultas hasta respuestas de voz interactivas en tiempo real que serían imposibles con las velocidades de inferencia típicas. Feldman dijo que hay que pensar en la precisión de un modelo de lenguaje. Debido a que estos modelos pueden sufrir alucinaciones, la primera respuesta puede ser muy a menudo inexacta. Es posible que se requieran múltiples indicaciones para obligar al modelo a verificar su salida. Agregar «generación aumentada por recuperación», donde el modelo accede a una base de datos externa, agrega más trabajo. Además: ¿Quieres trabajar en IA? Cómo cambiar tu carrera en 5 pasos Si todos esos pasos se pueden completar más rápido de lo que normalmente es posible, una consulta de Cerebras puede lograr un resultado de múltiples turnos que es más preciso en la misma cantidad de tiempo que los servicios de inferencia existentes todavía están tratando de completar la indicación original. «Si en cambio utilizas lo que se llama la incitación por cadena de pensamiento y le preguntas… [the chatbot] «Para demostrar su trabajo y luego responder en una palabra, se obtiene una respuesta más larga», dijo Feldman. «Resulta», dijo, las respuestas más largas a través de la cadena de pensamiento son la respuesta correcta, y el resultado es que «has convertido la velocidad en precisión. Al pedirle que use un proceso más minucioso y riguroso, puedes obtener una mejor respuesta». La velocidad se convierte en calidad: una respuesta más poderosa, una respuesta más relevante, por lo tanto, no solo tiempos de respuesta más rápidos». Cerebras Systems Una inferencia más rentable podría tener numerosas implicaciones para la calidad de la consulta y la respuesta, dijo Feldman, como expandir la «ventana de contexto», la cantidad de tokens de entrada que el modelo puede admitir. Expandir la ventana de contexto puede hacer posibles discusiones interactivas de documentos largos o comparaciones de múltiples documentos. En última instancia, podría impulsar formas «agenticas» de Gen AI, un enfoque cada vez más popular donde el modelo de IA debe poner en juego múltiples fuentes externas de verdad e incluso aplicaciones completas que funcionan para ensamblar la respuesta correcta. Español:También: La mejor IA para la programación en 2024 (y qué no usar)»Puedes crear modelos de agentes que hagan diez veces más trabajo», dijo Feldman, «y es probable que produzcan respuestas mucho mejores y más útiles». En una demostración vívida, Russ d’Sa, cofundador y director ejecutivo de la startup respaldada por capital de riesgo LiveKit, mostró un agente habilitado por voz que podía responder instantáneamente a indicaciones habladas. «Voy a dar un discurso en San Francisco. ¿Qué cosas puedo hacer después de mi charla?», preguntó d’Sa al chatbot. «San Francisco es una gran ciudad. Así que acabas de dar una charla. Bueno, tienes muchas opciones…», respondió rápidamente el bot. d’Sa procedió a interrumpir al agente de IA varias veces, a veces cambiando de tema o haciendo nuevas preguntas, como una conversación en la que una de las partes domina. El agente de IA pudo responder sin problemas cada vez. También: ¿Cómo trabaja Claude? Anthropic revela sus secretos»La velocidad a la que salen estos tokens importa mucho para la latencia con este tipo de caso de uso», explicó d’Sa. «Increíble, increíble velocidad. Este es un rendimiento que está por debajo de los 400 milisegundos para el tiempo total de respuesta en términos de turnos en los que la IA está hablando contigo.» Es lo último en tecnología, realmente, en términos de velocidad, y todo es realmente gracias a Cerebras», dijo d’Sa. «Así que es bastante asombroso». La velocidad y las ventajas de costo del servicio de inferencia se derivan principalmente del diseño del chip WSE-3 de la compañía, la tercera generación del procesador de Cerebras, presentado este año. Debido al enorme tamaño del chip (es casi toda la superficie de una oblea de semiconductor normal de doce pulgadas), el chip tiene casi 900 veces más memoria en chip que una GPU estándar de Nvidia. Tiene 7.000 veces más ancho de banda de memoria, la tasa de movimiento dentro y fuera de la memoria. Cerebras Systems «El ancho de banda de memoria es importante porque el ancho de banda de memoria es el limitador fundamental del rendimiento de inferencia de los modelos de lenguaje», explicó Feldman. Un modelo de IA con 70 mil millones de parámetros, como el de Meta, tiene 7000 millones de parámetros. Llama 3.1 70b, tiene que pasar cada palabra de entrada a través de esos 70 mil millones de pesos. Con dieciséis bits de datos o dos bytes, para cada peso, eso son 140 gigabytes de memoria para representar todos los pesos. Para pasar mil tokens a través de cada peso, la memoria requerida se dispara a 140 terabytes. Además: Cómo pruebo la capacidad de codificación de un chatbot de IA (y tú también puedes hacerlo) El chip Cerebras, con cuarenta y cuatro gigabytes de memoria rápida en el chip, puede almacenar más de esos datos en el chip, junto a los circuitos que tienen que funcionar. Y con 21 petabytes de ancho de banda de memoria, el chip puede mover datos dentro y fuera de la memoria mucho más rápido que la GPU para coordinar entre múltiples máquinas CS-3 donde las máquinas basadas en GPU pasan más tiempo simplemente buscando en la memoria. «Esta es la esencia de dónde proviene la ventaja», dijo Feldman. Los chips GPU a menudo usan solo una cuarta parte de su ancho de banda teórico, sostiene la empresa, lo que mantiene a los circuitos esperando datos. (Lie, hablando en la conferencia de tecnología Hot Chips el martes, en el campus de la Universidad de Stanford, dio a la audiencia una explicación aún más extensa de los pormenores técnicos). El director de tecnología de Cerebras, Sean Lie, se dirige a la conferencia Hot Chips 2024. Tiernan Ray para ZDNET. El uso del mismo chip WSE-3 para inferencia cuando fue diseñado originalmente para entrenamiento de redes neuronales es un hecho importante, enfatizaron tanto Feldman como Lie: su diseño de chip original era lo suficientemente potente como para manejar ambas tareas con un rendimiento superior en ambos casos. Al reutilizar el chip de entrenamiento WSE-3 para un propósito de inferencia, Cerebras, en cierto sentido, ha cerrado el círculo, dijo a ZDNET el vicepresidente senior de productos y estrategia de la compañía, Andy Hock. También: Lo que el pronóstico del ciclo de exageración de Gartner para 2024 nos dice sobre el futuro de la IA (y otras tecnologías) El chip WSE original, en 2019, fue concebido como una «arquitectura de flujo de datos», donde los «pesos» neuronales, o parámetros, de un modelo de IA se mantendrían en el chip y los datos para el entrenamiento se transmitirían a través de esos pesos, ajustándolos con cada nuevo punto de datos. Luego, Cerebras introdujo computadoras auxiliares, Swarm-X y Memory-X, en 2020, para almacenar y mover pesos fuera del chip y moverlos a múltiples procesadores WSE según sea necesario, con el fin de calcular ejecuciones de entrenamiento para modelos de IA cada vez más grandes de manera paralela y distribuida. Con la tarea de inferencia, Cerebras ha regresado a la perspectiva del flujo de datos, donde los pesos permanecen en el chip y los datos de entrada para la inferencia se transmiten a través de los circuitos de los chips, siendo modificados por los pesos del modelo para producir el resultado final, la predicción. «Pudimos hacer un cambio de rumbo antes y luego volver a hacerlo», dijo Hock. Además: Las estafas de IA que se infiltran en el mundo del tejido y el crochet, y por qué es importante para todos Las comparaciones proporcionadas por Cerebras se basan en el chip convencional actual de Nvidia, el H100, y los sistemas basados ​​en él. La empresa aún no ha comparado su rendimiento de inferencia con el nuevo chip Blackwell de Nvidia, dijo el director de tecnología Lie. La parte Blackwell será el doble de rápida que el H100, dijo Lie, pero aún así estará por detrás del sistema Cerebras, según espera. Todas las demostraciones se realizaron con dos modelos de código abierto, Llama 3.1 3b y 70b de Meta. La empresa, dijo Lie, ha probado la inferencia para el modelo 405b más grande de Meta. Sin embargo, estos modelos tan grandes actualmente tienen un costo prohibitivo en toda la industria para la inferencia, dijo. «La pregunta natural que, en realidad, toda la comunidad se está haciendo ahora mismo es, bueno, ¿puedo hacer eso con un modelo más pequeño?» Lie dijo. «En la medida en que la industria cambie a esos tipos de trabajo más rápidos y complejos, ahí es donde ganamos», dice Feldman. Tiernan Ray para ZDNETA primera vista, el servicio de inferencia es un negocio de productos básicos, un hecho que Feldman admite. Competir solo en precio y velocidad no siempre es una estrategia ganadora para un negocio rentable. Sin embargo, espera que con el tiempo cada vez haya más trabajo en el área de IA compleja, multifacética y agente, donde Cerebras brilla. «Si imaginas que el trabajo a lo largo del eje X es más lento en un extremo y más rápido y complejo en el otro extremo», dijo Feldman, «es definitivamente un negocio de productos básicos que ejecuta muchos, muchos trabajos lentos en un extremo», el tipo de tareas cotidianas que las personas actualmente hacen con ChatGPT y similares, como ayudar a elaborar su currículum. «Pero en el otro extremo, las cargas de trabajo rápidas y largas, eso no es en absoluto un producto básico, es muy sofisticado», dijo. «En la medida en que la industria vaya cambiando hacia tipos de trabajo más rápidos y complejos, ahí es donde ganaremos».