Uno de los mayores problemas de los grandes modelos de lenguaje que impulsan a los chatbots como ChatGPT es que nunca se sabe cuándo se puede confiar en ellos. Pueden generar una prosa clara y coherente en respuesta a cualquier pregunta, y gran parte de la información que proporcionan es precisa y útil. Pero también alucinan (en términos menos educados, inventan cosas) y esas alucinaciones se presentan en la misma prosa clara y coherente, dejando que el usuario humano detecte los errores. También son aduladores, tratando de decirles a los usuarios lo que quieren oír. Puedes probar esto pidiéndole a ChatGPT que describa cosas que nunca sucedieron (por ejemplo: «describe el episodio de Barrio Sésamo con Elon Musk» o «cuéntame sobre la cebra en la novela Middlemarch») y verificando sus respuestas absolutamente plausibles. El último pequeño paso de OpenAI para abordar este problema viene en forma de una herramienta ascendente que ayudaría a los humanos que entrenan al modelo a guiarlo hacia la verdad y la precisión. Hoy, la empresa publicó una entrada en su blog y un artículo de preimpresión que describe el esfuerzo. Este tipo de investigación entra en la categoría de trabajo de “alineación”, ya que los investigadores están tratando de hacer que los objetivos de los sistemas de IA se alineen con los de los humanos. El nuevo trabajo se centra en el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), una técnica que se ha vuelto muy importante para tomar un modelo de lenguaje básico y afinarlo, haciéndolo adecuado para su publicación. Con RLHF, los entrenadores humanos evalúan una variedad de resultados de un modelo de lenguaje, todos generados en respuesta a la misma pregunta, e indican qué respuesta es la mejor. Cuando se realiza a escala, esta técnica ha ayudado a crear modelos que son más precisos, menos racistas, más educados, menos inclinados a dar una receta para un arma biológica, etc. ¿Puede una IA atrapar a otra IA en una mentira? El problema con RLHF, explica el investigador de OpenAI Nat McAleese, es que “a medida que los modelos se vuelven más inteligentes, ese trabajo se vuelve cada vez más difícil”. A medida que los LLM generan respuestas cada vez más sofisticadas y complejas sobre todo, desde la teoría literaria hasta la biología molecular, los humanos típicos se vuelven menos capaces de juzgar los mejores resultados. «Eso significa que necesitamos algo que vaya más allá de RLHF para alinear sistemas más avanzados», dice McAleese a IEEE Spectrum. La solución que OpenAI encontró fue, ¡sorpresa!, más IA. En concreto, los investigadores de OpenAI entrenaron un modelo llamado CriticGPT para evaluar las respuestas de ChatGPT. En estas pruebas iniciales, solo hicieron que ChatGPT generara código informático, no respuestas de texto, porque los errores son más fáciles de detectar y menos ambiguos. El objetivo era crear un modelo que pudiera ayudar a los humanos en sus tareas de RLHF. «Estamos muy entusiasmados con esto», dice McAleese, «porque si tienes ayuda de IA para hacer estos juicios, si puedes hacer mejores juicios cuando estás dando retroalimentación, puedes entrenar un mejor modelo». Este enfoque es un tipo de «supervisión escalable» que tiene como objetivo permitir que los humanos vigilen los sistemas de IA incluso si terminan superándonos intelectualmente. “Usar anotadores humanos asistidos por LLM es una forma natural de mejorar el proceso de retroalimentación”. —Stephen Casper, MITPor supuesto, antes de poder usarse para estos experimentos, CriticGPT tuvo que ser entrenado usando las técnicas habituales, incluyendo RLHF. En un giro interesante, los investigadores hicieron que los entrenadores humanos insertaran deliberadamente errores en el código generado por ChatGPT antes de entregárselo a CriticGPT para su evaluación. Luego, CriticGPT ofreció una variedad de respuestas y los humanos pudieron juzgar los mejores resultados porque sabían qué errores debería haber detectado el modelo. Los resultados de los experimentos de OpenAI con CriticGPT fueron alentadores. Los investigadores descubrieron que CriticGPT detectó sustancialmente más errores que los humanos calificados pagados por la revisión del código: CriticGPT detectó aproximadamente el 85 por ciento de los errores, mientras que los humanos detectaron solo el 25 por ciento. También descubrieron que emparejar CriticGPT con un entrenador humano dio como resultado críticas más completas que las escritas por humanos solos y contenían menos errores alucinógenos que las críticas escritas por ChatGPT. McAleese dice que OpenAI está trabajando para implementar CriticGPT en sus procesos de entrenamiento, aunque no está claro qué tan útil sería en un conjunto más amplio de tareas. CriticGPT detecta errores de codificación, pero tal vez no cebras Es importante señalar las limitaciones de la investigación, incluido su enfoque en fragmentos cortos de código. Si bien el artículo incluye una mención casual de un experimento preliminar que utilizó CriticGPT para detectar errores en respuestas de texto, los investigadores aún no se han adentrado realmente en esas aguas más turbias. Es complicado porque los errores en el texto no siempre son tan obvios como una cebra entrando bailando vals en una novela victoriana. Además, RLHF se usa a menudo para garantizar que los modelos no muestren sesgos dañinos en sus respuestas y brinden respuestas aceptables sobre temas controvertidos. McAleese dice que es poco probable que CriticGPT sea útil en tales situaciones: «No es un enfoque lo suficientemente sólido». Un investigador de IA sin conexión con OpenAI dice que el trabajo no es conceptualmente nuevo, pero es una contribución metodológica útil. «Algunos de los principales desafíos con RLHF surgen de las limitaciones en la velocidad de cognición humana, la concentración y la atención a los detalles», dice Stephen Casper, estudiante de doctorado en el MIT y uno de los autores principales de un artículo de preimpresión de 2023 sobre las limitaciones de RLHF. «Desde esa perspectiva, el uso de anotadores humanos asistidos por LLM es una forma natural de mejorar el proceso de retroalimentación. Creo que este es un paso significativo hacia un entrenamiento más eficaz de los modelos alineados». Pero Casper también señala que combinar los esfuerzos de los humanos y los sistemas de IA «puede crear problemas completamente nuevos». Por ejemplo, dice, «este tipo de enfoque eleva el riesgo de una participación humana superficial y puede permitir la inyección de sesgos sutiles de IA en el proceso de retroalimentación». La nueva investigación de alineación es la primera que surge de OpenAI desde que la empresa… reorganizó su equipo de alineación, por decirlo suavemente. Tras las llamativas salidas del cofundador de OpenAI, Ilya Sutskever, y del líder de alineación, Jan Leike, en mayo, ambas supuestamente impulsadas por preocupaciones de que la empresa no estaba priorizando el riesgo de la IA, OpenAI confirmó que había disuelto su equipo de alineación y distribuido a los miembros restantes del equipo a otros grupos de investigación. Todo el mundo ha estado esperando para ver si la empresa seguiría publicando investigaciones de alineación creíbles e innovadoras, y en qué escala. (En julio de 2023, la empresa había anunciado que dedicaría el 20 por ciento de sus recursos informáticos a la investigación de la alineación, pero Leike dijo en un tuit de mayo de 2024 que su equipo había estado recientemente «luchando por la computación»). La preimpresión publicada hoy indica que al menos los investigadores de alineación todavía están trabajando en el problema. Artículos de su sitio Artículos relacionados en la Web