Últimamente, he estado cubriendo la sobreingeniería y el exceso de aprovisionamiento de recursos en apoyo de la IA, tanto en la nube como fuera de ella. Los arquitectos de IA están poniendo procesadores de alta potencia, como las GPU, en sus listas de compras de plataformas de IA, sin detenerse a considerar si generarán valor comercial. Me he encontrado en más de un desacuerdo acalorado con otros arquitectos de TI sobre el uso de estos recursos para la IA. Parece que se están formando dos bandos: primero, el bando que cree que la IA necesitará toda la potencia de procesamiento y almacenamiento que podamos permitirnos ahora. Refuerzan los sistemas antes de que sean necesarios. No es necesario considerar el dinero ni la huella de carbono. Segundo, el bando que está configurando una plataforma mínima viable (MVP) que pueda respaldar las funciones básicas de los sistemas de IA. La idea es mantenerlo lo más esbelto posible y utilizar plataformas de menor potencia, como la informática móvil y de borde. ¿Quién tiene razón? La tendencia a volverse pequeño A medida que avanzamos hacia la segunda mitad de 2024, está claro que un cambio de paradigma está remodelando el panorama: la IA está reduciendo su apetito por el hardware. En una era en la que la eficiencia digital reina suprema, las tecnologías de IA de vanguardia actuales están eliminando las voluminosas dependencias de recursos y transformándose en modelos esbeltos y ágiles. La narrativa tradicional para el desarrollo de la IA ha sido durante mucho tiempo una de alta demanda. Sin embargo, la narrativa está experimentando una reescritura dramática, en gran parte gracias a los nuevos avances en algoritmos de IA y diseño de hardware. El desarrollo de arquitecturas de redes neuronales más eficientes, como transformadores y algoritmos de compresión sin pérdidas, ha desempeñado un papel fundamental. Estas innovaciones han reducido el tamaño de los datos necesarios para el entrenamiento y la inferencia, reduciendo así el esfuerzo computacional. Esta tendencia está reduciendo significativamente la barrera de entrada y ofreciendo plataformas mucho más pequeñas y asequibles, dentro o fuera de la nube. Más eficientes y rentables Un hito crítico en esta evolución fue la llegada de procesadores de IA especializados, como las unidades de procesamiento tensorial (TPU) y las unidades de procesamiento neuronal (NPU). A diferencia de sus contrapartes genéricas, como las GPU, estos procesadores están optimizados para las demandas específicas de las cargas de trabajo de IA. Realizan más cálculos por vatio, lo que se traduce en un mejor rendimiento con un menor consumo de energía. Es probable que veamos procesadores más eficientes y rentables a medida que los miles de millones de dólares que fluyen hacia el espacio de los procesadores creen mejores opciones que las GPU enormemente caras. Más potencia de procesamiento menor y, por lo tanto, IA centrada en el dispositivo es hacia donde se dirigen los sistemas de IA. No está tan centrado en los principales modelos de lenguaje grande (LLM) que definen el espacio de IA generativa. Como he mencionado muchas veces, las empresas no construirán LLM para sus implementaciones de IA; durante los próximos años, serán modelos más pequeños y casos de uso tácticos. Ahí es donde se deben realizar las inversiones. En el frente del software, los marcos como TensorFlow Lite y ONNX permiten a los desarrolladores construir modelos de IA de alta eficiencia que se reducen de manera adecuada para dispositivos de borde. El enfoque en torno al desarrollo de sistemas de IA parece estar cambiando aquí; las empresas están encontrando más beneficios en la construcción de sistemas de IA más livianos que pueden proporcionar más valor comercial con menos inversión. Uno debe reconocer la magia tejida por la computación de borde. Esta noción alguna vez futurista es ahora una realidad, impulsando el procesamiento de datos hacia la periferia de la red. Al aprovechar los dispositivos de borde, que van desde los gadgets de IoT hasta los teléfonos inteligentes, las cargas de trabajo de IA se están volviendo más distribuidas y descentralizadas. Esto alivia la congestión del ancho de banda y los problemas de latencia y respalda una tendencia hacia procesadores minimalistas pero potentes. Más grande no siempre es mejor Avanzamos rápidamente hasta 2024, y nuestra dependencia de infraestructuras de datos masivas se está evaporando constantemente. Los sistemas de IA complejos se ejecutan sin problemas en dispositivos que caben en la palma de la mano. No son LLM ni pretenden serlo, pero pueden comunicarse con los LLM cuando sea necesario y pueden procesar el 95 % de lo que necesitan procesar en el dispositivo. Esta es la idea detrás de las funciones de inteligencia de Apple que aún no se han implementado y que se entregarán en la próxima versión de IOS. Por supuesto, esto puede tener la intención de impulsar las actualizaciones del iPhone en lugar de impulsar una mayor eficiencia de la IA. Considere el avance de la inteligencia incorporada en los teléfonos inteligentes. Procesadores como el A16 Bionic de Apple y el Snapdragon 8 Gen 2 de Qualcomm tienen capacidades de IA integradas, lo que estimula una revolución en la informática móvil. Estos chips tienen aceleradores de aprendizaje automático que administran tareas como la traducción de idiomas en tiempo real, los juegos basados ​​en realidad aumentada y el procesamiento sofisticado de fotografías. Además, los modelos de IA ahora se pueden «recortar» sin perder eficacia. La cuantificación, la poda y la destilación de conocimientos de los modelos permiten a los diseñadores reducir los modelos y optimizarlos para su implementación en entornos con recursos limitados. Esto hace retroceder la narrativa actual. La mayoría de las empresas de consultoría y tecnología más grandes están impulsando asociaciones con proveedores de procesadores. Será una señal difícil de hacer sonar la alarma. ¿Nos preocupa que las decisiones se basen más en obligaciones comerciales que en requisitos comerciales y que sigamos intentando meter GPU costosas y que consumen mucha energía en nubes y centros de datos? Esperamos que las empresas creen y operen enormes sistemas de IA que consuman el doble de energía y cuesten el doble de dinero que en la actualidad. Es un resultado aterrador. Esto no significa que vayamos a limitar la potencia que necesita la IA. Deberíamos preocuparnos por dimensionar correctamente nuestros recursos y utilizar la IA de manera más eficiente. No estamos en una carrera para ver quién puede construir el sistema más grande y poderoso. Se trata de agregar valor comercial adoptando un enfoque minimalista para esta tecnología. Copyright © 2024 IDG Communications, Inc.