No podemos no hablar de poder en estos días. Hemos estado hablando de eso desde que el proyecto Stargate, con medio billón de dólares en la inversión del centro de datos, fue flotante a principios de año. Hemos estado hablando de eso desde el artículo ahora clásico de «loros estocásticos». Y, a medida que pasa el tiempo, solo se convierte en un problema más. Selección de secuencias de palabras según los patrones estadísticos. Siempre deseé que esos fueran dos documentos, porque sería más fácil estar en desacuerdo sobre el poder y estar de acuerdo con los loros. Para mí, el problema de poder es una arenque roja, pero cada vez más, veo que es un arenque rojo que no va a desaparecer porque demasiadas personas con demasiado dinero quieren arenques; Demasiados creen que un monopolio sobre el poder (o un monopolio sobre la capacidad de pagar el poder) es la ruta hacia el dominio. ¿Por qué, en un mundo mejor de lo que vivimos actualmente, el problema de poder sería un arenque rojo? Existen varias razones relacionadas: siempre he asumido que los modelos de lenguaje de primera generación serían muy ineficientes, y que con el tiempo, desarrollaríamos algoritmos más eficientes. También he asumido que la economía de los modelos de lenguaje sería similar a las fusiones de chips o las fábricas farmacéuticas: el primer chip que sale de una fundición cuesta un poco de dólares, todo después de un centavo es un centavo. (Parámetros 70b o menos) que pueden ejecutarse localmente en lugar de modelos gigantes con billones de parámetros que se ejecutan en la nube. Y sigo creo que esos puntos son en gran medida ciertos. Pero eso no es suficiente. Veamos a través de ellos uno por uno, comenzando con la eficiencia. Algoritmos de la persona que hace unos años, vi una buena cantidad de documentos sobre modelos más eficientes. Recuerdo muchos artículos sobre la poda de redes neuronales (eliminando los nodos que contribuyen poco al resultado) y otras técnicas. Los documentos que abordan la eficiencia todavía se están publicando, la mayoría de las veces, el reciente documento de «mezcla de recursiones» de Deepmind, pero no parecen ser tan comunes. Eso es solo anecdata, y tal vez debería ser ignorado. Más concretamente, Deepseek sorprendió al mundo con su modelo R1, que afirmaron que costaron aproximadamente 1/10 tanto para entrenar como los principales modelos fronterizos. Muchos comentarios insistieron en que Deepseek no estaba al frente en su medición del consumo de energía, pero desde entonces varios otros laboratorios chinos han lanzado modelos altamente capaces, sin centros de datos de Gigawatt a la vista. Incluso más recientemente, Operai ha lanzado GPT-OSS en dos tamaños (120b y 30b), que según los informes fueron mucho menos costosos de entrenar. No es la primera vez que esto sucede: me han dicho que la Unión Soviética desarrolló algoritmos de compresión de datos increíblemente eficientes porque sus computadoras estaban una década detrás de las nuestras. Mejores algoritmos pueden superar las facturas de poder más grandes, mejores CPU y más GPU, si los dejamos. ¿Qué pasa con esta imagen? La imagen es buena, pero gran parte de la narrativa está centrada en los Estados Unidos, y eso la distorsiona. Primero, está distorsionado por nuestra creencia de que más grande siempre es mejor: mire nuestros autos, nuestros SUV, nuestras casas. Estamos condicionados a creer que un modelo con un billón de parámetros tiene que ser mejor que un modelo con solo 70b, ¿verdad? ¿Que un modelo que cuesta cien millones de dólares para entrenar debe ser mejor que uno que pueda ser capacitado económicamente? Ese mito está profundamente integrado en nuestra psique. En segundo lugar, está distorsionado por la economía. Más grande es mejor es un mito en el que juegan los posibles monopolistas cuando hablan sobre la necesidad de centros de datos cada vez más grandes, preferiblemente financiados con dólares de impuestos. Es un mito conveniente, porque convencer a los posibles competidores de que necesitan gastar miles de millones en centros de datos es una forma efectiva de no tener competidores. Un área que no ha sido lo suficientemente explorada son modelos extremadamente pequeños desarrollados para tareas especializadas. Drew Breunig escribe sobre el pequeño modelo de ajedrez en Stockfish, el programa de ajedrez líder mundial: es lo suficientemente pequeño como para funcionar en un iPhone y reemplazó un modelo de uso general mucho más grande. Y muy derrotó a Claude Sonnet 3.5 y GPT-4O.1 También escribe sobre el Modelo de razonamiento jerárquico de parámetros de 27 millones (HRM) que ha superado modelos como Claude 3.7 en el punto de referencia de ARC. La luz de la luna de Pete Warden hace una transcripción de voz a texto en tiempo real en el navegador, y es tan bueno como cualquier modelo de alta gama que haya visto. Ninguno de estos son modelos de propósito general. No vibrarán código; No escribirán las publicaciones de tu blog. Pero son extremadamente efectivos en lo que hacen. Y si AI va a cumplir su destino de «desaparecer en las paredes», de convertirse en parte de nuestra infraestructura cotidiana, necesitaremos modelos muy precisos y muy especializados. Tendremos que liberarnos del mito de que más grande es mejor.2 El costo de inferencia del propósito de un modelo no debe ser entrenado; Es para hacer inferencia. Esta es una simplificación bruta, pero parte del entrenamiento es hacer billones de inferencia de tiempos y ajustar los miles de millones de parámetros del modelo para minimizar el error. Una sola solicitud requiere una fracción extremadamente pequeña del esfuerzo requerido para entrenar un modelo. Ese hecho conduce directamente a la economía de las fundiciones de chips: la capacidad de procesar el primer avance costó millones de dólares, pero una vez que están en producción, procesando las fracciones de costos rápidos de un centavo. Google ha afirmado que procesar un mensaje de texto típico para Géminis toma 0.24 vatios-horas, significativamente menos de lo que se necesita para calentar agua para una taza de café. También afirman que los aumentos en la eficiencia del software han llevado a una reducción de 33x en el consumo de energía durante el año pasado. Obviamente, esa no es la historia completa: millones de personas que impulsan ChatGPT se suman, al igual que el uso de los nuevos módulos de «razonamiento» que tienen un diálogo interno extendido antes de llegar a un resultado. Del mismo modo, conducir al trabajo en lugar de andar en bicicleta aumenta la temperatura global una nanofracción de un título, pero cuando multiplica la nanofracción por miles de millones de viajeros, es una historia diferente. Es justo decir que una persona que usa ChatGPT o Géminis no es un problema, pero también es importante darse cuenta de que millones de usuarios que golpean en un servicio de IA pueden convertirse en un problema con bastante rapidez. Desafortunadamente, también es cierto que los aumentos en la eficiencia a menudo no conducen a reducciones en el uso de energía, sino a resolver problemas más complejos dentro del mismo presupuesto de energía. Podemos ver eso con modelos de razonamiento, modelos de generación de imágenes y videos, y otras aplicaciones que ahora se están volviendo financieramente factibles. ¿Este problema requiere centros de datos de Gigawatt? No, no es eso, pero es un problema que puede justificar la construcción de los centros de datos de Gigawatt. Hay una solución, pero requiere repensar el problema. Decir a las personas que usen el transporte público o las bicicletas para su viaje es ineficaz (en los Estados Unidos), como dirá a las personas que no usen IA. El problema debe ser repensado: rediseñar el trabajo para eliminar el viaje (O’Reilly es el 100% de trabajo desde casa), repensando la forma en que usamos IA para que no requiera modelos de parámetros de billones de billones alojados en la nube. Eso nos lleva al uso de AI localmente. Estando en la localización de todo lo que hacemos con GPT-*, Claude-*, Gemini-*y otros modelos fronterizos podrían hacerse de manera igual de manera efectiva en modelos mucho más pequeños que se ejecutan localmente: en una pequeña sala de máquinas corporativas o incluso en una computadora portátil. Ejecutar IA localmente también lo protege de problemas con disponibilidad, ancho de banda, límites de uso y fuga de datos privados. Esta es una historia que los posibles monopolistas no quieren que escuchemos. Una vez más, esto es anecdata, pero me ha impresionado mucho los resultados que obtengo al ejecutar modelos en el rango de 30 millones de parámetros en mi computadora portátil. Hago la codificación de ambas y obtengo un código en su mayoría correcto que el modelo puede (generalmente) arreglarme para mí; Pido resúmenes de blogs y documentos y obtengo excelentes resultados. Anthrope, Google y OpenAI compiten por décimas de un punto porcentual en puntos de referencia altamente jugados, pero dudo que esos puntajes de referencia tengan mucho significado práctico. Me encantaría ver un estudio sobre la diferencia entre QWEN3-30B y GPT-5. ¿Qué significa eso para los costos de energía? No está claro. Los centros de datos de Gigawatt para hacer inferencia quedarían innecesarios si las personas hacen inferencia localmente, pero ¿cuáles son las consecuencias de que mil millones de usuarios hacen inferencia en las computadoras portátiles de alta gama? Si le doy a mi AI local un problema difícil, mi computadora portátil se calienta y ejecuta sus ventiladores. Está usando más electricidad. Y las computadoras portátiles no son tan eficientes como los centros de datos que se han diseñado para minimizar el uso eléctrico. Está muy bien burlarse en Gigawatts, pero cuando usa tanta energía, minimizar el consumo de energía ahorra mucho dinero. Las economías de escala son reales. Personalmente, apuesto a las computadoras portátiles: calcular con 30 mil millones de parámetros, sin duda, será menos intensivo en energía que la computación con 3 billones de parámetros. Pero no aguantaré la respiración esperando que alguien haga esta investigación. Hay otro lado de esta pregunta, y eso involucra modelos que «razón». Los llamados «modelos de razonamiento» tienen una conversación interna (no siempre visible para el usuario) en la que el modelo «planea» los pasos que tomará para responder al mensaje. Un artículo reciente afirma que los modelos de código abierto más pequeños tienden a generar muchos más tokens de razonamiento que los modelos grandes (3 a 10 veces más, dependiendo de los modelos que está comparando), y que el extenso proceso de razonamiento cae en la economía de los modelos más pequeños. Los tokens de razonamiento deben procesarse, lo mismo que cualquier tokens generados por el usuario; Este procesamiento incurre en los cargos (que discute el documento), y los cargos presumiblemente se relacionan directamente con la potencia. Si bien es sorprendente que los modelos pequeños generen más tokens de razonamiento, no sorprende que el razonamiento sea costoso, y necesitamos tenerlo en cuenta. El razonamiento es una herramienta para ser utilizada; Tiende a ser particularmente útil cuando se le pide a un modelo que resuelva un problema en matemáticas. Es mucho menos útil cuando la tarea implica buscar hechos, resumir, escribir o hacer recomendaciones. Puede ayudar en áreas como el diseño del software, pero es probable que sea una responsabilidad por la codificación generativa. En estos casos, el proceso de razonamiento en realidad puede ser engañoso, además de la quema de tokens. Decidir cómo usar los modelos de manera efectiva, ya sea que los esté ejecutando localmente o en la nube, es una tarea que nos cae. Se necesita cierta disciplina para comprometerse con los modelos más pequeños, aunque es difícil argumentar que usar los modelos fronterizos es menos trabajo. Todavía tiene que analizar su salida y verificar sus resultados. Y confieso: tan comprometido como estoy con los modelos más pequeños, tiendo a seguir con los modelos en el rango de 30B y evito los modelos 1B -5B (incluido el excelente Gemma 3n). Esos modelos, estoy seguro, darían buenos resultados, usarían aún menos potencia y funcionarían aún más rápido. Pero todavía estoy en el proceso de despegarme de mis supuestos instintivos. Bigger no es necesariamente mejor; Más poder no es necesariamente la ruta hacia el dominio de la IA. Todavía no sabemos cómo se desarrollará esto, pero haré mis apuestas en modelos más pequeños que se ejecutan localmente y entrenados con eficiencia en mente. Sin duda habrá algunas aplicaciones que requieren modelos fronterizos grandes, tal vez generando datos sintéticos para capacitar a los modelos más pequeños, pero realmente necesitamos entender dónde se necesitan modelos fronterizos y dónde no lo están. Mi apuesta es que rara vez son necesarios. Y si nos liberamos del deseo de usar el último y más grande modelo de frontera solo porque está allí, ya sea o no, sirve a su propósito mejor que un modelo de 30B, no necesitaremos la mayoría de esos centros de datos gigantes. No se deje seducir por el complejo industrial. Hay muchas razones para creer que los resultados serían similares. Kkevlin Henney hace un punto relacionado en «escalar picos falsos».