¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora el nuevo y poderoso modelo de lenguaje Language de Language AI (LLM) de Openai se lanzó hace menos de dos semanas bajo una licencia Permisiva Apache 2.0: el primer lanzamiento del modelo de pesas abiertas de la compañía desde GPT-2 en 2019, pero los desarrolladores fuera de la compañía ya lo están reformando. Uno de los ejemplos más sorprendentes proviene de Jack Morris, un estudiante de doctorado en Cornell Tech, ex residente de Google Brain e investigador actual de Meta, quien esta semana reveló esta semana GPT-ASS-20B-Base, su propia versión reelaborada de la versión más pequeña de Openi-ASS-20B, que modela y elimina el comportamiento de «razonamiento» del modelo y regresa a una versión «base» previa a la contratación que ofrece Faster, Faster, más fraster. El modelo está disponible ahora en abrazar la cara bajo una licencia MIT permisiva, lo que permite que se use tanto para investigaciones adicionales como para aplicaciones comerciales. Cómo GPT-OSS-20B-Base es diferente a los modelos GPT-OSS de OpenAI para comprender lo que hizo Morris, es útil saber la diferencia entre el lanzamiento de OpenAI y lo que los investigadores de IA llaman un «modelo base». AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Join our exclusive salon to discover how top teams are: Turning energy into a strategic advantage Architecting efficient inference for real throughput gains Unlocking competitive ROI with sustainable AI systems Secure your spot to stay ahead: https://bit.ly/4mwGngO Most LLMs offered by leading AI labs such as OpenAI, Anthropic, Google and even open source players like Meta, DeepSeek, and Alibaba’s Qwen team are «Post-entrenado». Esto significa que han pasado por una fase adicional en la que está expuesto a ejemplos curados de comportamiento deseado. Para los modelos sintonizados con instrucciones, eso significa darle muchos ejemplos de instrucciones combinadas con respuestas ideales, por lo que aprende a responder de manera más útil, cortés o segura a las solicitudes de lenguaje natural. Los modelos GPT-ASS OpenAi publicaron el 5 de agosto fueron «optimizados por el razonamiento»: entrenados y ajustados no solo para predecir la siguiente palabra, sino para seguir las instrucciones de una manera segura y consistente, a menudo atravesando problemas con el razonamiento estructurado de la «cadena de pensamiento» antes de producir una respuesta final. Esta es una tendencia que se remonta al modelo O1 de OpenAI lanzado hace casi un año en septiembre de 2024, pero que numerosos laboratorios de IA principales han adoptado, lo que obliga a los modelos a pensar más tiempo en múltiples pasos y verificar su propio trabajo antes de generar una respuesta bien razonada al usuario. Eso los hace más adecuados para tareas como codificar, resolver problemas matemáticos o responder preguntas objetivas con explicaciones, pero también significa que sus respuestas se filtran y se alejan del contenido inseguro o indeseable. Un modelo base es diferente. Es la versión cruda de un modelo de lenguaje grande antes de que se aplique la alineación específica del razonamiento. Los modelos base simplemente intentan predecir la siguiente parte del texto dado lo que viene antes, sin barandillas incorporadas, preferencias estilísticas o comportamientos de rechazo. Son apreciados por algunos investigadores porque pueden producir una producción más variada y menos limitada, y porque estudiar su comportamiento no alineado puede revelar cómo los modelos almacenan el conocimiento y los patrones de sus datos de entrenamiento. El objetivo de Morris era «revertir» el proceso de alineación de Openai y restaurar el GPT-OSS-20B más pequeño a algo mucho más cerca de su estado original previamente. «Básicamente revertimos la parte de alineación de la capacitación de LLM, por lo que tenemos algo que produce un texto de aspecto natural nuevamente», escribió en un hilo X anunciando el proyecto. «Ya no participa en la cuna. Está de vuelta a un modelo que solo predice la siguiente token en texto genérico». Operai no ha de origen abierto un modelo base desde GPT-2 en 2019. Recientemente lanzaron GPT-OSS, que es solo razonamiento … ¿o es así? Resulta que debajo de la superficie, todavía hay un modelo base fuerte. Entonces lo extraemos. ¿Introducción a la base GPT-OSS-20B? Pic.twitter.com/3xryqglf8z— Jack Morris (@JXMNOP) 13 de agosto de 2025 en lugar de tratar de encabezar el modelo con indicaciones inteligentes, que Morris dijo que demostró ser ineficaz durante sus primeros experimentos, tomó una táctica diferente después de una conversación con el ex cofundador de OpenAI, el ex investigador antrópico y el jefe de máquinas de pensamiento actual John Schulman. La clave era pensar en la reversión de la alineación como un pequeño problema de optimización: si la mayoría del conocimiento previamente provocado del modelo todavía está presente en sus pesos, entonces solo podría ser necesaria una pequeña actualización de bajo rango para empujarlo hacia el comportamiento del modelo base. Morris implementó esa idea aplicando una actualización de Lora (adaptador de bajo rango) a solo tres capas del modelo, las capas MLP en las posiciones 7, 15 y 23, con un rango de 16. Eso significaba capacitar unos 60 millones de parámetros, o el 0.3% del total de 21 mil millones del modelo. Utilizó alrededor de 20,000 documentos del conjunto de datos FineWeb, manteniendo el formato lo más cerca posible de la pretrenesa original (estilo «…») para que el modelo no aprenda nada nuevo, simplemente vuelva a habilitar la generación de texto libre amplio. El entrenamiento tomó cuatro días en ocho GPU de NVIDIA H200, Morris dijo a VentureBeat a través del mensaje directo en X, con una tasa de aprendizaje de 2E-6, un tamaño de lote de 16 y una longitud de secuencia máxima de 8,192 tokens. Posteriormente, fusionó los pesos de Lora en el modelo para que los usuarios pudieran ejecutarlo como un artefacto independiente y totalmente mejorado. Morris también tuvo que lidiar con las limitaciones de las herramientas abiertas actuales para las arquitecturas de mezcla de expertos (MOE) como GPT-OSS. Morris dijo que usó el marco de Hugging Face, que dijo que se bloquea con frecuencia y solo admite ciertos modos de entrenamiento, y escribió su propio arnés al punto de control con frecuencia y se salta por lotes de datos que se arriesgaron a sobrecargar la memoria de la GPU. Es importante destacar que, en respuesta a las preguntas y críticas de la comunidad de IA en X, Morris también ha aclarado que no afirma haber recuperado el modelo base «pesos», la configuración interna de las neuronas artificiales que conforman la red neuronal del modelo y gobiernan su comportamiento. The world of AI is crazy right now cause you can just claim to have extracted the base model from GPT-OSS while effectively you’ve just trained a lora on Fineweb lol https://t.co/oAnAWpMQ26— Niels Rogge (@NielsRogge) August 15, 2025 Rather, Morris says that his work has “recovered the base model’s *distribution* with some error,” that is, the probability patterns the El modelo se usa para generar salidas, aunque los pesos que producen esos patrones pueden diferir. Algunas personas se confunden sobre el experimento: no recuperamos los *pesos del modelo base *. Eso podría no ser posible. Recuperamos la *distribución *del modelo base, con algún error. Una pregunta importante es cuánto. Traducir para resolverlo en este momento … https://t.co/lfug5qy4h0: Jack Morris (@JXMNOP) 15 de agosto de 2025 cómo el nuevo comportamiento del modelo GPT-ASS-20B-Base difiere de GPT-20B el resultado de GPT-oss-oss-Base notas en sus productos. Ya no es predeterminado explicar el razonamiento paso a paso y producirá una gama más amplia de respuestas, incluidas las instrucciones que el modelo alineado de OpenAI se negaría a dar, como construir un arma, enumerar blasfemias o planificar actividades ilegales. En pruebas cortas, Morris descubrió que también podía reproducir pasajes literales de obras con derechos de autor, incluidos tres de seis extractos de libros que intentó, mostrando que todavía es accesible un material memorizado. Aun así, quedan algunas huellas de alineación. Morris señaló que si avisas al modelo en un formato de estilo asistente («Humano: … Asistente: …»), a veces todavía actuará como un chatbot educado. Y cuando se ejecuta a través de la plantilla original de chat GPT-OSS, aún puede llevar a cabo tareas de razonamiento, aunque con cierta pérdida de calidad. Para obtener los mejores resultados en modo de texto libre, aconseja las indicaciones prependientes con el token especial de inicio de la secuencia del modelo <|startoftext|> y evitar las plantillas de chat por completo. Construyendo sobre la gran liberación de la familia GPT-OSS de OpenAI, la familia GPT-OSS debutó con considerable atención. Los dos modelos, GPT-OSS-20B y GPT-OSS-20B, son solo de texto, multilingües y construidos con una arquitectura del transformador de la mezcla de expertos. Fueron liberados bajo la licencia Permisive Apache 2.0, permitiendo el uso local sin restricciones, el ajuste fino y la implementación comercial. Los puntos de referencia de rendimiento de OpenAI mostraron el modelo de 120b más grande que coincide o excede el O4-Mini patentado en tareas de razonamiento y uso de herramientas, con los 20B más pequeños competitivos con O3-Mini. Este fue el primer lanzamiento de peso abierto de OpenAI en seis años, un movimiento ampliamente interpretado como una respuesta a la presión competitiva de otros proveedores de peso abierto, incluidos Deepseek R1 y Qwen 3 de China. La compañía posicionó a GPT-oss como una forma de reenvocar a los desarrolladores que se habían movido a modelos de código abierto rivales y como una plataforma para la investigación de seguridad en los sistemas de pestañas abiertas. La reacción al GPT-OSS inicial fue la reacción de desarrollador mixta a los modelos GPT-OSS de Openi se mezcló firmemente, con reacciones en todos los ámbitos que van desde entusiastas hasta decepcionadas. Los partidarios elogiaron la licencia permisiva, la eficiencia y la fuerte muestra en los puntos de referencia STEM. Abrazando el CEO de Face, Clem Delangue, describió el lanzamiento como una «adición significativa al ecosistema abierto» e instó a la comunidad a darle tiempo a madurar. Los críticos argumentaron que los modelos parecen muy entrenados en datos sintéticos, haciéndolos excelentes en matemáticas y codificación, pero menos capaces en la escritura creativa, el conocimiento general del mundo y el razonamiento multilingüe. Algunos primeros evaluadores también expresaron preocupaciones sobre los filtros de seguridad persistentes y el posible sesgo geopolítico. En ese contexto, la base GPT-OSS-20B de Morris se destaca como un ejemplo concreto de cómo los modelos de peso abierto pueden adaptarse y reutilizarse en la naturaleza a los pocos días de la liberación. De hecho, en contraste con la forma en que se recibió GPT-Oss de OpenAI, la mayoría de las respuestas al trabajo de Morris que he visto son cálidas y eufóricas. Como un científico informático escribió en X: “Esto es lo mejor que he visto en Twitter [X] en los últimos meses «. Hombre, esto es lo mejor que he visto en Twitter en los últimos meses. Me encantan los modelos base: Ludan (@JMRLudan) el 15 de agosto de 2025, el enfoque elimina gran parte del comportamiento OpenAi incorporado y devuelve el modelo a algo más cercano a un sistema crudo y previo a la preparación, un cambio que es valioso para los investigadores que estudian memorización, la sesgo o el impacto de la alineación, pero que también viene con el riesgo de mayor seguridad, que los investigadores estudian, los estudios estudian los estudios, los sesgos, el impacto de la alineación, pero que también viene con el riesgo superior de seguridad. Restauración de modelos de razonamiento a los modelos de base previa y no recurrente continuará comparando la extracción en la no conductora, instruye a los modelos como los que ofrecen Qwen sobre los casos de uso de negocios con VB diariamente si desea impresionar a su jefe, por lo que puede cubrirlo. suscripción.