Ampliar / Una ilustración creada por OpenAI. El jueves, los investigadores de OpenAI dieron a conocer CriticGPT, un nuevo modelo de IA diseñado para identificar errores en el código generado por ChatGPT. Su objetivo es mejorar el proceso de hacer que los sistemas de IA se comporten de la manera que los humanos desean (llamado «alineación») a través del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), que ayuda a los revisores humanos a hacer que los resultados del modelo de lenguaje grande (LLM) sean más precisos. Como se describe en un nuevo artículo de investigación llamado «LLM Critics Help Catch LLM Bugs», OpenAI creó CriticGPT para actuar como un asistente de IA para los entrenadores humanos que revisan el código de programación generado por el asistente de IA ChatGPT. CriticGPT, basado en la familia GPT-4 de LLMS, analiza el código y señala errores potenciales, lo que facilita a los humanos detectar errores que de otro modo pasarían desapercibidos. Los investigadores entrenaron a CriticGPT en un conjunto de datos de muestras de código con errores insertados intencionalmente, enseñándole a reconocer y señalar varios errores de codificación. Los investigadores descubrieron que los anotadores preferían las críticas de CriticGPT a las críticas humanas en el 63 por ciento de los casos que involucraban errores de LLM que ocurrían naturalmente y que los equipos humano-máquina que usaban CriticGPT escribían críticas más completas que los humanos solos, al tiempo que reducían las tasas de confabulación (alucinaciones) en comparación con solo IA. críticas. Desarrollo de un crítico automatizado El desarrollo de CriticGPT implicó entrenar el modelo con una gran cantidad de entradas que contenían errores insertados deliberadamente. Se pidió a los entrenadores humanos que modificaran el código escrito por ChatGPT, introduciendo errores y luego proporcionando comentarios de ejemplo como si hubieran descubierto estos errores. Este proceso permitió que el modelo aprendiera a identificar y criticar varios tipos de errores de codificación. En experimentos, CriticGPT demostró su capacidad para detectar tanto errores insertados como errores que ocurren naturalmente en la salida de ChatGPT. Los entrenadores prefirieron las críticas del nuevo modelo a las generadas por el propio ChatGPT en el 63 por ciento de los casos que involucraban errores naturales (la estadística antes mencionada). Esta preferencia se debió en parte a que CriticGPT produjo menos «quisquillosos» inútiles y generó menos falsos positivos o problemas alucinados. Los investigadores también crearon una nueva técnica que llamaron Force Sampling Beam Search (FSBS). Este método ayuda a CriticGPT a escribir revisiones de código más detalladas. Permite a los investigadores ajustar qué tan exhaustivo es CriticGPT en la búsqueda de problemas y, al mismo tiempo, controlar la frecuencia con la que puede inventar problemas que realmente no existen. Pueden modificar este equilibrio según lo que necesiten para las diferentes tareas de entrenamiento de IA. Curiosamente, los investigadores descubrieron que las capacidades de CriticGPT van más allá de la simple revisión del código. En sus experimentos, aplicaron el modelo a un subconjunto de datos de entrenamiento de ChatGPT que previamente habían sido calificados como impecables por anotadores humanos. Sorprendentemente, CriticGPT identificó errores en el 24 por ciento de estos casos, errores que posteriormente fueron confirmados por revisores humanos. OpenAI cree que esto demuestra el potencial del modelo para generalizarse a tareas que no son de código y destaca su capacidad para detectar errores sutiles que incluso una evaluación humana cuidadosa podría pasar por alto. A pesar de sus prometedores resultados, como todos los modelos de IA, CriticGPT tiene limitaciones. El modelo se entrenó con respuestas ChatGPT relativamente cortas, lo que puede no prepararlo completamente para evaluar tareas más largas y complejas que podrían abordar los futuros sistemas de IA. Además, si bien CriticGPT reduce las confabulaciones, no las elimina por completo, y los entrenadores humanos aún pueden cometer errores de etiquetado basados ​​en estos resultados falsos. El equipo de investigación reconoce que CriticGPT es más eficaz para identificar errores que pueden localizarse en una ubicación específica dentro del código. Sin embargo, los errores del mundo real en los resultados de la IA a menudo pueden distribuirse en varias partes de una respuesta, lo que presenta un desafío para futuras iteraciones del modelo. OpenAI planea integrar modelos similares a CriticGPT en su canal de etiquetado RLHF, brindando asistencia de IA a sus capacitadores. Para OpenAI, es un paso hacia el desarrollo de mejores herramientas para evaluar los resultados de los sistemas LLM que pueden ser difíciles de calificar para los humanos sin apoyo adicional. Sin embargo, los investigadores advierten que incluso con herramientas como CriticGPT, las tareas o respuestas extremadamente complejas aún pueden resultar desafiantes para los evaluadores humanos, incluso aquellos asistidos por IA.