Los modelos de lenguaje grande (LLM) como GPT-4 de OpenAI y Claude 2 de Anthropic han capturado la imaginación del público con su capacidad de generar texto similar al humano. Las empresas están igualmente entusiasmadas y muchas exploran cómo aprovechar los LLM para mejorar productos y servicios. Sin embargo, un cuello de botella importante está limitando gravemente la adopción de los LLM más avanzados en entornos de producción: los límites de tasas. Hay formas de superar estas cabinas de peaje con límite de tarifa, pero es posible que el progreso real no se produzca sin mejoras en los recursos informáticos. Las API públicas de LLM que dan acceso a modelos de empresas como OpenAI y Anthropic imponen límites estrictos a la cantidad de tokens (unidades). de texto) que se pueden procesar por minuto, el número de solicitudes por minuto y el número de solicitudes por día. Esta frase, por ejemplo, consumiría nueve tokens. Las llamadas API al GPT-4 de OpenAI están actualmente limitadas a tres solicitudes por minuto (RPM), 200 solicitudes por día y un máximo de 10.000 tokens por minuto (TPM). El nivel más alto permite límites de 10 000 RPM y 300 000 TPM. Para aplicaciones de producción más grandes que necesitan procesar millones de tokens por minuto, estos límites de velocidad hacen que el uso de los LLM más avanzados sea esencialmente inviable. Las solicitudes se acumulan y tardan minutos u horas, lo que impide cualquier procesamiento en tiempo real. La mayoría de las empresas todavía tienen dificultades para adoptar LLM de forma segura y eficaz a escala. Pero incluso cuando resuelven desafíos relacionados con la sensibilidad de los datos y los procesos internos, los límites de velocidad representan un obstáculo persistente. Las empresas emergentes que crean productos en torno a los LLM alcanzan el techo rápidamente cuando se acumulan el uso del producto y los datos, pero las empresas más grandes con grandes bases de usuarios son las más limitadas. Sin un acceso especial, sus aplicaciones no funcionarán en absoluto. ¿Qué hacer? Evitar los límites de velocidad Un camino es omitir por completo las tecnologías que limitan la velocidad. Por ejemplo, existen modelos de IA generativa para usos específicos que no presentan cuellos de botella de LLM. Diffblue, una startup con sede en Oxford, Reino Unido, se basa en tecnologías de aprendizaje por refuerzo que no imponen límites de velocidad. Hace una cosa muy bien y de manera muy eficiente y puede cubrir millones de líneas de código. Crea de forma autónoma pruebas unitarias de Java a 250 veces la velocidad de un desarrollador y se compilan 10 veces más rápido. Las pruebas unitarias escritas por Diffblue Cover permiten una comprensión rápida de aplicaciones complejas, lo que permite a las empresas y nuevas empresas innovar con confianza, lo cual es ideal para mover aplicaciones heredadas. a la nube, por ejemplo. También puede escribir código nuevo de forma autónoma, mejorar el código existente, acelerar los procesos de CI/CD y proporcionar una visión profunda de los riesgos asociados con el cambio sin necesidad de revisión manual. Nada mal. Por supuesto, algunas empresas tienen que depender de los LLM. ¿Qué opciones tienen? Más cálculo, por favor. Una opción es simplemente solicitar un aumento en los límites de tarifas de una empresa. Esto está bien hasta el momento, pero el problema subyacente es que muchos proveedores de LLM en realidad no tienen capacidad adicional para ofrecer. Éste es el meollo del problema. La disponibilidad de GPU está determinada por la cantidad total de obleas de silicio de fundiciones como TSMC. Nvidia, el fabricante dominante de GPU, no puede adquirir suficientes chips para satisfacer la explosiva demanda impulsada por las cargas de trabajo de IA, donde la inferencia a escala requiere miles de GPU agrupadas. La forma más directa de aumentar los suministros de GPU es construir nuevas plantas de fabricación de semiconductores, conocidas como fabulosos. Pero una nueva fábrica cuesta hasta 20.000 millones de dólares y lleva años construirla. Los principales fabricantes de chips como Intel, Samsung Foundry, TSMC y Texas Instruments están construyendo nuevas instalaciones de producción de semiconductores en Estados Unidos. Algún día, eso será increíble. Por ahora, todo el mundo debe esperar. Como resultado, existen muy pocas implementaciones de producción reales que aprovechen GPT-4. Aquellos que lo hacen tienen un alcance modesto y utilizan el LLM para funciones auxiliares en lugar de como un componente central del producto. La mayoría de las empresas todavía están evaluando pilotos y pruebas de concepto. El impulso necesario para integrar los LLM en los flujos de trabajo empresariales es sustancial por sí solo, incluso antes de considerar los límites de tarifas. Buscando respuestasLas limitaciones de la GPU que limitan el rendimiento de GPT-4 están impulsando a muchas empresas a utilizar otros modelos de IA generativa. AWS, por ejemplo, tiene sus propios chips especializados para entrenamiento e inferencia (ejecutar el modelo una vez entrenado), lo que permite a sus clientes una mayor flexibilidad. Es importante destacar que no todos los problemas requieren los recursos computacionales más potentes y costosos. AWS ofrece una gama de modelos que son más económicos y fáciles de ajustar, como Titan Light. Algunas empresas están explorando alternativas como el ajuste de modelos de código abierto como Meta’s Llama 2. Para casos de uso simples que involucran generación aumentada de recuperación (RAG) que requieren agregar contexto a un mensaje y generar una respuesta, son suficientes modelos menos potentes. Técnicas como ya que también puede ayudar la paralelización de solicitudes entre varios LLM más antiguos con límites más altos, la fragmentación de datos y la destilación de modelos. Existen varias técnicas que se utilizan para hacer que la inferencia sea más barata y rápida. La cuantificación reduce la precisión de los pesos en el modelo, que normalmente son números de coma flotante de 32 bits. Este no es un enfoque nuevo. Por ejemplo, el hardware de inferencia de Google, las Unidades de procesamiento tensorial (TPU), solo funciona con modelos en los que los pesos se han cuantificado en enteros de ocho bits. El modelo pierde algo de precisión, pero se vuelve mucho más pequeño y más rápido de ejecutar. Una técnica recientemente popular llamada “modelos dispersos” puede reducir los costos de capacitación e inferencia, y requiere menos mano de obra que la destilación. Puede pensar en un LLM como una agregación de muchos modelos lingüísticos más pequeños. Por ejemplo, cuando le haces una pregunta a GPT-4 en francés, solo es necesario usar la parte del modelo de procesamiento en francés, y esto es lo que explotan los modelos dispersos. Puedes realizar un entrenamiento disperso, en el que solo necesitas entrenar un subconjunto. del modelo en francés, y una inferencia escasa, donde se ejecuta sólo la parte del modelo de habla francesa. Cuando se usa con cuantización, esto puede ser una forma de extraer modelos más pequeños de propósito especial de LLM que pueden ejecutarse en CPU en lugar de GPU (aunque con una pequeña penalización en la precisión). ¿El problema? GPT-4 es famoso porque es un generador de texto de uso general, no un modelo más limitado y específico. En cuanto al hardware, las nuevas arquitecturas de procesadores especializadas para cargas de trabajo de IA prometen ganancias en eficiencia. Cerebras ha creado un gigantesco motor a escala de oblea optimizado para el aprendizaje automático, y Manticore está reutilizando el silicio de GPU «rechazado» desechado por los fabricantes para ofrecer chips utilizables. En última instancia, las mayores ganancias provendrán de los LLM de próxima generación que requieren menos computación. Combinados con hardware optimizado, los futuros LLM podrían superar las barreras de límite de tarifas actuales. Por ahora, el ecosistema se ve afectado por la carga de empresas ansiosas que se alinean para aprovechar el poder de los LLM. Aquellos que esperan abrir nuevos caminos con la IA tal vez tengan que esperar hasta que los suministros de GPU se abran en el largo camino que queda por recorrer. Irónicamente, estas limitaciones pueden ayudar a moderar parte del revuelo en torno a la IA generativa, dando tiempo a la industria para establecer patrones positivos para usarla de manera productiva y rentable. Copyright © 2024 IDG Communications, Inc.

Source link