China demuestra modelos abiertos más efectivos que el dominio de la GPU • El registro

Se suponía que el comentario Openai debía cumplir con su nombre y lanzar su primer modelo de peso abierto desde GPT-2 esta semana. Desafortunadamente, lo que podría haber sido el primer modelo abierto medio decente del año de los Estados Unidos se ha mantenido en una revisión de seguridad, según el CEO Sam Altman. «Si bien confiamos en que la comunidad construirá grandes cosas con este modelo, una vez que los pesos están fuera, no se pueden retirar. Esto es nuevo para nosotros, y queremos hacerlo bien», escribió en una publicación en X. El retraso deja a los Estados Unidos en un lugar bastante incómodo. A pesar de cientos de miles de millones de inversiones en GPU, el mejor modelo abierto que America ha logrado en lo que va del año es Meta’s Llama 4, que disfrutó de una recepción menos que estelar y se vio empañado de controversia. Justo esta semana, se informó que Meta aparentemente había tomado su gigante de dos billones de parámetros detrás del granero después de que no cumplió con las expectativas. Ha habido un puñado de otros lanzamientos de modelos abiertos de empresas estadounidenses. Microsoft lanzó una versión de Phi-4 14b, que fue entrenada utilizando el aprendizaje de refuerzo para habilitar la funcionalidad de razonamiento; IBM ha lanzado un puñado de pequeños LLM centrados en cargas de trabajo de agente; y Google lanzó su familia multimodal Gemma3, que superó los 27 mil millones de parámetros. Pero estos modelos son pequeños fritos en comparación con la Llama 4 Maverick de 400 mil millones de parámetros de Meta. Tal como está entre las empresas estadounidenses, gran parte del progreso real en el desarrollo generativo de IA este año se ha bloqueado, accesible solo a través de llamadas API a los servidores de otra persona. China continúa con su racha de IA Hot, pero mientras los constructores de modelos estadounidenses continúan haciendo su mejor trabajo a puerta cerrada, China lo está haciendo a la intemperie. Como le gusta señalar al CEO de Nvidia, la mitad de los investigadores de IA del mundo llaman hogar a China, y realmente lo muestra. A principios de 2025, Deepseek, hasta ese punto, un desarrollo de AI relativamente oscuro salió del fondo de cobertura cuantitativo chino, se convirtió en un nombre familiar después de la liberación de su modelo R1. La LLM de 671 mil millones de parámetros presentó una nueva arquitectura de mezcla de expertos (MOE) que le permitió funcionar mucho más rápido y en menos recursos que incluso LLMS más pequeños como LLAMA 3.1 405B mientras replicaba la funcionalidad de razonamiento del modelo O1 aún fresco de OpenAi. Más importante aún, los pesos del modelo se lanzaron a la intemperie, junto con documentos técnicos detallados que muestran cómo lo habían hecho. Y en lo que debería haber sido una sorpresa para nadie, fue solo cuestión de semanas antes de que comenzaramos a ver que los desarrolladores occidentales replicaron estos procesos para imbuir sus propios modelos con capacidades de razonamiento. Desde entonces, Alibaba ha lanzado una serie de nuevos modelos de razonamiento y MOE que incluyen QWQ, QWEN3-235B-A22B y 30B-A3B. En junio, Minanax, con sede en Shanghai, lanzó su modelo de razonamiento de 456 mil millones de parámetros llamado M1 bajo una licencia de software Permisiva Apache 2.0. Las características notables incluían una ventana de contexto de un millón de millones y un nuevo mecanismo de atención que el desarrollo afirma le ayuda a realizar un seguimiento de todos esos tokens. Ese mismo mes, Baidu Open obtuvo su familia Ernie de modelos MOE, que varían en tamaño de 47 mil millones de parámetros a 424 mil millones. Huawei también ha abierto sus modelos Pangu entrenados en sus aceleradores internos, pero ese lanzamiento fue eclipsado casi de inmediato por las acusaciones de fraude. Eso nos lleva a julio, cuando Moonshot Ai, otro desarrollador de IA chino, levantó el telón sobre Kimi 2, un modelo MOE de un billón de parámetros que reclaman los mejores LLMS de Occidente. Tome esas afirmaciones con un grano de sal, pero el hecho sigue siendo, los chinos han desarrollado un modelo de peso abierto de un billón de parámetros. Los únicos LLM de EE. UU. Se acercan hoy son todos propietarios. Todo esto, debe recordarse, se hizo a pesar de la cruzada del tío Sam para privar a los chinos de las herramientas necesarias para competir de manera efectiva en la arena de la IA. El año no ha terminado, pero esto nos lleva de vuelta al modelo prometido de peso abierto de OpenAi. No se sabe mucho más que lo que AI Hype-Man Altman ha compartido en X, y en entrevistas públicas y audiencias del Congreso. Altman inició todo en febrero cuando les preguntó a sus seguidores cuáles preferirían que fuera el próximo proyecto de código abierto de OpenAI: un modelo de nivel O3-Mini que se ejecutaría en GPU o el mejor teléfono inteligente LLM que pudieran reunir. El LLM de nivel O3-Mini ganó. Luego, en junio, Operai retrocedió el lanzamiento del modelo por primera vez, con Altman publicando que «el equipo de investigación hizo algo inesperado y bastante sorprendente, y creemos que valdrá la pena la espera, pero necesita un poco más». Di lo que quieras sobre la inclinación de Altman por la hipérbole, pero el hecho es que Operai ha liderado históricamente en el desarrollo del modelo. Independientemente de si estará a la altura de la exageración, cualquier nueva competencia en el Modelo Open Model Arena es bienvenido, particularmente entre los jugadores. Desafortunadamente, al igual que Operai se prepara para lanzar su primer modelo abierto en seis años, se informa que Meta, bajo la dirección de su nuevo y nuevo laboratorio de superinteligencia, puede abandonar su propio compromiso de abrir el código a favor de un modelo cerrado. Xai, por todas las apariencias, parece haber seguido esta ruta con su familia Grok de LLMS. Originalmente, la startup respaldada por Elon Musk planeó abierta las pesas de su último modelo cuando se lanzó una nueva versión. Y mientras Xai lanzó Grok-1 en el debut de Grok-2, Grok-3 ha estado fuera desde febrero, y su página de abrazadera se ve un poco solo. Por otra parte, ¿quién quiere un modelo cuyos pasatiempos incluyen cosplaying como mecha-hitler? Quizás, en este raro caso, este es el mejor cerrado. ®

Todo lo que necesitas saber sobre tecnología

China demuestra modelos abiertos más efectivos que el dominio de la GPU • El registro

Deja una respuesta Cancelar la respuesta

China demuestra modelos abiertos más efectivos que el dominio de la GPU • El registro

¿Qué es un teléfono del gobierno gratuito Maryland? [Detailed Guide]

Vista previa del juego FIFA 19: el juego de fútbol más suave jamás hecho

Deja una respuesta Cancelar la respuesta