Olvidar el etiquetado de datos: el r-cero de Tencent muestra cómo los LLM pueden entrenar a sí mismos

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora un nuevo marco de capacitación desarrollado por investigadores en Tencent AI Lab y la Universidad de Washington en St. Louis permite que grandes modelos de idiomas (LLM) se mejoren sin requerir datos marcados con humanos. La técnica, llamada R-Zero, utiliza el aprendizaje de refuerzo para generar sus propios datos de entrenamiento desde cero, abordando uno de los principales cuellos de botella para crear sistemas de IA autoevolución. R-Zero funciona al tener dos modelos independientes que evolucionan conjuntamente interactuándose y desafiándose mutuamente. Los experimentos muestran que R-Zero mejora sustancialmente las capacidades de razonamiento en diferentes LLM, lo que podría reducir la complejidad y los costos de capacitación de IA avanzada. Para las empresas, este enfoque podría acelerar el desarrollo de modelos especializados para tareas de razonamiento complejos sin el gasto masivo de curarse los conjuntos de datos etiquetados. El desafío de los LLM de auto evolución de la idea detrás de los LLM de autoevolución es crear sistemas de IA que puedan generar, refinar y aprender de sus propias experiencias de manera autónoma. Esto ofrece un camino escalable hacia una IA más inteligente y capaz. Sin embargo, un desafío importante es que la capacitación de estos modelos requiere grandes volúmenes de tareas y etiquetas de alta calidad, que actúan como señales de supervisión para que la IA aprenda. Confiar en los anotadores humanos para crear estos datos no solo es costoso y lento, sino que también crea un cuello de botella fundamental. Limita efectivamente las capacidades potenciales de una IA con lo que los humanos pueden enseñarlo. Para abordar esto, los investigadores han desarrollado métodos sin etiquetas que obtienen señales de recompensa directamente de las propias salidas de un modelo, por ejemplo, midiendo su confianza en una respuesta. Si bien estos métodos eliminan la necesidad de etiquetas explícitas, aún dependen de un conjunto de tareas preexistentes, lo que limita su aplicabilidad en escenarios verdaderamente auto evolucionar. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4MWGNGO Otros enfoques que involucran modelos generan sus propias tareas para aprender de. Sin embargo, en dominios como el razonamiento abierto, donde no hay una forma simple de verificar la corrección (como un ejecutor de código), asegurar que la calidad de estos datos autogenerados sea un obstáculo significativo. Cómo R-Zero Works R-Zero es un marco diseñado para entrenar LLMS de razonamiento que puede evolucionar de cero datos externos. El proceso comienza con un modelo base único, que se divide en dos roles: un «retador» y un «solucionador». Estos dos modelos se optimizan de forma independiente, pero evolucionan juntos a través de un ciclo continuo de interacción. El objetivo del retador es crear nuevas tareas que estén justo en el umbral de las habilidades actuales del solucionador, ni demasiado fácil ni imposible. El solucionador, a su vez, es recompensado por resolver estas tareas cada vez más complejas. En comentarios escritos para VentureBeat, Chengsong Huang, coautor del periódico y estudiante de doctorado en la Universidad de Washington en St. Louis, explicó que esta dinámica es crucial porque generar preguntas de alta calidad a menudo es más complicada que encontrar las respuestas. «Lo que encontramos en un entorno práctico es que el mayor desafío es no generar las respuestas … sino más bien generar preguntas de alta calidad, novedosas y progresivamente más difíciles», dijo Huang. «Creemos que los buenos maestros son mucho más raros que los buenos estudiantes. La dinámica coevolutiva automatiza la creación de este ‘maestro’, garantizar un plan de estudios estable y dinámico que empuja las capacidades del solucionador mucho más allá de lo que un conjunto de datos estático y preexistente podría lograr». Una vez que el Challenger genera suficientes preguntas, se filtran para la diversidad y se compilan en un conjunto de datos de capacitación. En la fase de entrenamiento del solucionador, está ajustado a estas preguntas desafiantes. La respuesta «correcta» para cada pregunta está determinada por un voto mayoritario de los propios intentos anteriores del solucionador. Todo este proceso se repite, creando un bucle de administración personal que funciona sin ninguna intervención humana, lo que permite que los dos modelos se empujen mutuamente para que se vuelvan progresivamente más capaces en cada iteración. R-Zero en acción Los investigadores probaron R-Zero en varios LLM de código abierto, incluidos modelos de las familias QWEN3 y Octothinker. Primero entrenaron a los modelos sobre problemas matemáticos y luego probaron si las habilidades de razonamiento aprendidas podrían generalizarse a otros puntos de referencia complejos de dominios generales como MMLU-Pro (tareas de comprensión y razonamiento de varios idiomas) y SuperGPQA (tareas de ciencia y razonamiento). Los resultados mostraron que R-Zero es un marco altamente efectivo y agnóstico del modelo. Por ejemplo, aumentó la puntuación del modelo QWEN3-4B-base en +6.49 en promedio en los puntos de referencia de razonamiento matemático. El proceso de capacitación mejoró de manera consistente y sustancial el rendimiento, con ganancias que se acumulan en varias iteraciones. El modelo más grande QWEN3-8B-base vio su puntaje de matemáticas promedio aumentar en +5.51 puntos después de tres iteraciones. Un hallazgo clave fue el salto de rendimiento inmediato después de la primera iteración, que validó la efectividad del papel del retador en la creación de un plan de estudios de aprendizaje de alta calidad. «Esto confirma que el plan de estudios inteligente generado por el retador entrenado por RL es significativamente más efectivo que el de un generador no entrenado», escriben los investigadores en su artículo. En particular, las habilidades aprendidas de los problemas matemáticos se transfirieron efectivamente a tareas de razonamiento general, mejorando así las capacidades subyacentes de los modelos. Por ejemplo, el mismo modelo QWEN3-4B-base mostró una mejora de +7.54 en puntos de referencia de razonamiento de dominio general. Otro hallazgo interesante es que R-Zero puede servir como un paso de pre-entrenamiento decisivo. Los modelos primero mejoraron primero por R-Zero lograron un rendimiento aún mayor cuando luego se ajustaron los datos etiquetados tradicionales, lo que sugiere que el marco actúa como un amplificador de rendimiento. Para las empresas, el enfoque «de cero datos» podría ser un cambio de juego, especialmente en dominios de nicho donde los datos de alta calidad son escasos o inexistentes. Huang destaca que la principal ventaja de R-Zero es su capacidad para dejar de lado la parte más cara y que requiere mucho tiempo del desarrollo de IA: la curación de datos. «Nuestro enfoque evita completamente el cuello de botella fundamental de tener que encontrar, etiquetar y curar conjuntos de datos de alta calidad», dijo. «No se trata solo de una medida de ahorro de costos; es una vía hacia la creación de AI que puede superar las capacidades humanas, porque ya no está limitada por el alcance del conocimiento o los datos humanos». Sin embargo, el proceso coevolutivo también reveló un desafío crítico. A medida que el Challenger genera con éxito problemas progresivamente más difíciles, la capacidad del solucionador para producir respuestas confiables «correctas» a través de la mayoría de los votos comienza a disminuir. Los investigadores encontraron que la verdadera precisión de estas etiquetas autogeneradas cayó del 79% en la primera iteración al 63% en el tercero, en comparación con un fuerte Oracle LLM como GPT -4. Esta disminución de la calidad de los datos es una compensación clave y un posible cuello de botella para el rendimiento a largo plazo del sistema. Huang reconoció que este es un problema fundamental para el paradigma de autoevolución. «Nuestro trabajo es una prueba de concepto que demuestra el potencial de este enfoque, pero reconocemos que mantener una mejora estable a largo plazo sin estabilizarse es un obstáculo significativo», dijo. «Resolver este problema será un próximo paso crucial para toda la comunidad de investigación». Los investigadores también destacan una limitación clave del marco: el mecanismo actual es el más adecuado para dominios como las matemáticas donde la corrección puede determinarse objetivamente. Entonces, ¿cómo podría este poderoso paradigma extenderse a tareas empresariales más subjetivas como generar copias de marketing o resumir informes? Huang sugiere que un camino potencial hacia adelante implica agregar un tercer agente de IA-evolución de la mezcla: un «verificador» o «crítico». «En lugar de evaluar una respuesta ‘correcta’ simple, este verificador estaría capacitado para evaluar la calidad de la producción del solucionador en función de criterios más matizados», explicó. «La dinámica coevolutiva involucraría al Challenger creando el aviso, el solucionador que genera la respuesta y el verificador que proporciona una señal de calidad, con los tres modelos mejorando juntos». Si bien esto sigue siendo una dirección para futuras investigaciones, apunta hacia un futuro en el que los sistemas de IA totalmente autónomos pueden dominar no solo la lógica objetiva, sino también el razonamiento subjetivo. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

Olvidar el etiquetado de datos: el r-cero de Tencent muestra cómo los LLM pueden entrenar a sí mismos

Deja una respuesta Cancelar la respuesta

Olvidar el etiquetado de datos: el r-cero de Tencent muestra cómo los LLM pueden entrenar a sí mismos

Las ofertas del Día del Trabajo se calientan con más del 40% de descuento en algunos de nuestros auriculares inalámbricos favoritos de última generación

Las compañías criptográficas congelan $ 47 millones en fondos de cebo romántico

Deja una respuesta Cancelar la respuesta