La economía de las GPU: cómo entrenar tu modelo de IA sin arruinarte

Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Muchas empresas tienen grandes esperanzas de que la IA revolucione su negocio, pero esas esperanzas pueden verse rápidamente aplastadas por los asombrosos costos de entrenar sistemas de IA sofisticados. Elon Musk ha señalado que los problemas de ingeniería son a menudo la razón por la que el progreso se estanca. Esto es particularmente evidente al optimizar hardware como las GPU para manejar de manera eficiente los requisitos computacionales masivos de entrenamiento y ajuste fino de modelos de lenguaje grandes. Si bien los grandes gigantes tecnológicos pueden darse el lujo de gastar millones y, a veces, miles de millones en capacitación y optimización, las pequeñas y medianas empresas y las nuevas empresas con pistas de aterrizaje más cortas a menudo se encuentran al margen. En este artículo, exploraremos algunas estrategias que pueden permitir que incluso los desarrolladores con más recursos limitados entrenen modelos de IA sin gastar una fortuna. En por un centavo, en por un dólar Como sabrá, la creación y el lanzamiento de un producto de IA, ya sea un modelo base/modelo de lenguaje grande (LLM) o una aplicación descendente/de flujo perfeccionada, depende en gran medida de chips de IA especializados, específicamente GPU. Estas GPU son tan caras y difíciles de obtener que SemiAnalysis acuñó los términos «rica en GPU» y «pobre en GPU» dentro de la comunidad de aprendizaje automático (ML). El entrenamiento de LLM puede ser costoso principalmente por los gastos asociados con el hardware, incluida la adquisición y el mantenimiento, en lugar de los algoritmos de ML o el conocimiento experto. El entrenamiento de estos modelos requiere un cálculo extenso en clústeres potentes, y los modelos más grandes toman incluso más tiempo. Por ejemplo, el entrenamiento de LLaMA 2 70B implicó exponer 70 mil millones de parámetros a 2 billones de tokens, lo que requirió al menos 10^24 operaciones de punto flotante. ¿Debería rendirse si no tiene GPU? No. Estrategias alternativas Hoy en día, existen varias estrategias que las empresas de tecnología están utilizando para encontrar soluciones alternativas, reducir la dependencia de hardware costoso y, en última instancia, ahorrar dinero. Un enfoque implica ajustar y optimizar el hardware de entrenamiento. Aunque esta ruta todavía es en gran parte experimental y requiere mucha inversión, es prometedora para la optimización futura del entrenamiento de LLM. Ejemplos de tales soluciones relacionadas con el hardware incluyen chips de IA personalizados de Microsoft y Meta, nuevas iniciativas de semiconductores de Nvidia y OpenAI, clústeres de cómputo individuales de Baidu, GPU de alquiler de Vast y chips Sohu de Etched, entre otros. Si bien es un paso importante para el progreso, esta metodología sigue siendo más adecuada para los grandes actores que pueden darse el lujo de invertir mucho ahora para reducir los gastos más adelante. No funciona para los recién llegados con recursos financieros limitados que desean crear productos de IA hoy. Qué hacer: software innovador Con un presupuesto bajo en mente, hay otra forma de optimizar la capacitación LLM y reducir los costos: a través de software innovador. Este enfoque es más asequible y accesible para la mayoría de los ingenieros de ML, ya sean profesionales experimentados o aspirantes a entusiastas de la IA y desarrolladores de software que buscan ingresar al campo. Examinemos algunas de estas herramientas de optimización basadas en código con más detalle. Entrenamiento de precisión mixto De qué se trata: imagina que tu empresa tiene 20 empleados, pero alquilas espacio de oficina para 200. Obviamente, eso sería un claro desperdicio de tus recursos. Una ineficiencia similar ocurre durante el entrenamiento de modelos, donde los marcos de ML a menudo asignan más memoria de la que es realmente necesaria. El entrenamiento de precisión mixta corrige eso a través de la optimización, mejorando tanto la velocidad como el uso de la memoria. Cómo funciona: para lograrlo, las operaciones b/float16 de menor precisión se combinan con operaciones float32 estándar, lo que da como resultado menos operaciones computacionales en cualquier momento. Esto puede sonar como un montón de jerga técnica para alguien que no es ingeniero, pero lo que significa esencialmente es que un modelo de IA puede procesar datos más rápido y requerir menos memoria sin comprometer la precisión. Métricas de mejora: esta técnica puede generar mejoras en el tiempo de ejecución de hasta 6 veces en GPU y 2-3 veces en TPU (unidad de procesamiento tensorial de Google). Los marcos de código abierto como APEX de Nvidia y PyTorch de Meta AI admiten el entrenamiento de precisión mixta, lo que lo hace fácilmente accesible para la integración de canalizaciones. Al implementar este método, las empresas pueden reducir sustancialmente los costos de GPU y, al mismo tiempo, mantener un nivel aceptable de rendimiento del modelo. Puntos de control de activación Qué es: Si tiene limitaciones de memoria pero al mismo tiempo está dispuesto a dedicar más tiempo, los puntos de control pueden ser la técnica adecuada para usted. En pocas palabras, ayudan a reducir significativamente el consumo de memoria al mantener los cálculos al mínimo, lo que permite el entrenamiento LLM sin actualizar su hardware. Cómo funciona: La idea principal de los puntos de control de activación es almacenar un subconjunto de valores esenciales durante el entrenamiento del modelo y volver a calcular el resto solo cuando sea necesario. Esto significa que, en lugar de mantener todos los datos intermedios en la memoria, el sistema solo conserva lo que es vital, liberando espacio de memoria en el proceso. Es similar al principio de «cruzaremos ese puente cuando lleguemos a él», que implica no preocuparse por asuntos menos urgentes hasta que requieran atención. Métricas de mejora: En la mayoría de las situaciones, los puntos de control de activación reducen el uso de memoria hasta en un 70 %, aunque también extienden la fase de entrenamiento aproximadamente entre un 15 y un 25 %. Esta compensación justa significa que las empresas pueden entrenar grandes modelos de IA en su hardware existente sin invertir fondos adicionales en la infraestructura. La biblioteca PyTorch antes mencionada admite puntos de control, lo que facilita su implementación. Entrenamiento con múltiples GPU Qué es: imagina que una pequeña panadería necesita producir un lote grande de baguettes rápidamente. Si un panadero trabaja solo, probablemente llevará mucho tiempo. Con dos panaderos, el proceso se acelera. Agrega un tercer panadero y va aún más rápido. El entrenamiento con múltiples GPU funciona de la misma manera. Cómo funciona: en lugar de usar una GPU, utiliza varias GPU simultáneamente. Por lo tanto, el entrenamiento del modelo de IA se distribuye entre estas GPU, lo que les permite trabajar juntas. Desde el punto de vista lógico, esto es algo así como lo opuesto al método anterior, los puntos de control, que reducen los costos de adquisición de hardware a cambio de un tiempo de ejecución extendido. Aquí, utilizamos más hardware pero lo aprovechamos al máximo y maximizamos la eficiencia, acortando así el tiempo de ejecución y reduciendo los costos operativos. Métricas de mejora: Aquí hay tres herramientas robustas para entrenar LLM con una configuración de múltiples GPU, enumeradas en orden creciente de eficiencia según los resultados experimentales: DeepSpeed: Una biblioteca diseñada específicamente para entrenar modelos de IA con múltiples GPU, que es capaz de alcanzar velocidades de hasta 10 veces más rápido que los enfoques de entrenamiento tradicionales. FSDP: Uno de los marcos más populares en PyTorch que aborda algunas de las limitaciones inherentes de DeepSpeed, aumentando la eficiencia computacional en un 15-20% adicional. YaFSDP: Una versión mejorada recientemente lanzada de FSDP para el entrenamiento de modelos, que proporciona aceleraciones del 10-25% sobre la metodología FSDP original. Conclusión Al usar técnicas como entrenamiento de precisión mixta, puntos de control de activación y uso de múltiples GPU, incluso las pequeñas y medianas empresas pueden lograr un progreso significativo en el entrenamiento de IA, tanto en el ajuste fino como en la creación de modelos. Estas herramientas mejoran la eficiencia computacional, reducen el tiempo de ejecución y bajan los costos generales. Además, permiten el entrenamiento de modelos más grandes en hardware existente, lo que reduce la necesidad de actualizaciones costosas. Al democratizar el acceso a capacidades avanzadas de IA, estos enfoques permiten que una gama más amplia de empresas tecnológicas innoven y compitan en este campo en rápida evolución. Como dice el dicho, «La IA no te reemplazará, pero alguien que la use lo hará». Es hora de adoptar la IA y, con las estrategias anteriores, es posible hacerlo incluso con un presupuesto bajo. Ksenia Se es la fundadora de Turing Post. DataDecisionMakers ¡Bienvenido a la comunidad VentureBeat! DataDecisionMakers es el lugar donde los expertos, incluido el personal técnico que trabaja con datos, pueden compartir conocimientos e innovación relacionados con los datos. Si desea leer sobre ideas de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers. ¡Incluso podría considerar contribuir con un artículo propio! Leer más de DataDecisionMakers

Todo lo que necesitas saber sobre tecnología

La economía de las GPU: cómo entrenar tu modelo de IA sin arruinarte

Deja una respuesta Cancelar la respuesta

La economía de las GPU: cómo entrenar tu modelo de IA sin arruinarte

La serie Huawei Mate 70 se filtra y revela nuevo diseño y precio

Aviso de oferta: SSD portátil de 1 TB: compatible con tipo C/A, ¡ahora tiene un descuento de 2520 yenes!

Deja una respuesta Cancelar la respuesta