Getty Images El lunes, William Fedus, empleado de OpenAI, confirmó en X que un misterioso chatbot de IA conocido como «gpt-chatbot» que había estado siendo sometido a pruebas en el Chatbot Arena de LMSYS y frustrando a los expertos era, de hecho, el recientemente anunciado GPT-4o de OpenAI. Modelo de IA. También reveló que GPT-4o había encabezado la clasificación de Chatbot Arena, logrando la puntuación más alta jamás documentada. «GPT-4o es nuestro nuevo modelo de vanguardia. Hemos estado probando una versión en el ámbito de LMSys como también soy un buen chatbot gpt2», tuiteó Fedus. Chatbot Arena es un sitio web donde los visitantes conversan con dos modelos de lenguaje de IA aleatorios, uno al lado del otro, sin saber cuál es cuál, y luego eligen qué modelo ofrece la mejor respuesta. Es un ejemplo perfecto de evaluación comparativa de IA basada en vibraciones, como lo llama el investigador de IA Simon Willison. Ampliar / Un gráfico Elo de LMSYS compartido por William Fedus, que muestra el GPT-4o de OpenAI bajo el nombre «soy-también-un-buen-gpt2-chatbot» encabezando los gráficos. Los modelos gpt2-chatbot aparecieron en abril y escribimos sobre cómo la falta de transparencia sobre el proceso de prueba de IA en LMSYS dejó frustrados a los expertos en IA como Willison. «Toda la situación es exasperantemente representativa de la investigación del LLM», dijo a Ars en ese momento. «Un lanzamiento completamente opaco y sin previo aviso y ahora todo Internet está realizando ‘verificaciones de vibraciones’ no científicas en paralelo». En la Arena, OpenAI ha estado probando múltiples versiones de GPT-4o, y el modelo apareció primero como el «gpt2-chatbot» antes mencionado, luego como «soy-un-buen-gpt2-chatbot» y finalmente «soy-también- a-good-gpt2-chatbot», al que el CEO de OpenAI, Sam Altman, hizo referencia en un tweet críptico el 5 de mayo. Desde el lanzamiento de GPT-4o hoy, múltiples fuentes han revelado que GPT-4o ha encabezado las listas internas de LMSYS por un margen considerable, superando a los modelos superiores anteriores Claude 3 Opus y GPT-4 Turbo. «gpt2-chatbots acaba de llegar a la cima, superando a todos los modelos por una brecha significativa (~50 Elo). Se ha convertido en el modelo más fuerte jamás visto en la Arena», escribió la cuenta X de lmsys.org mientras compartía un gráfico. «Esta es una captura de pantalla interna», escribió. «¡Su versión pública ‘gpt-4o’ ahora está en Arena y pronto aparecerá en la clasificación pública!» Ampliar / Una captura de pantalla interna de la tabla de clasificación de LMSYS Chatbot Arena que muestra a «soy-también-un-buen-chatbot-gpt2» liderando el grupo. Ahora sabemos que es GPT-4o. Al momento de escribir este artículo, im-also-a-good-gpt2-chatbot tenía un Elo 1309 versus el 1253 de GPT-4-Turbo-2023-04-09 y el 1246 de Claude 3 Opus. Claude 3 y GPT-4 Turbo habían estado peleando estuvo en las listas durante algún tiempo antes de que aparecieran los tres gpt2-chatbots y sacudieran las cosas. Soy un buen chatbot Para que conste, «Soy un buen chatbot» en el nombre de la prueba gpt2-chatbot es una referencia a un episodio que ocurrió mientras un usuario de Reddit llamado Curious_Evolver estaba probando una versión temprana y «desquiciada» de Bing Chat en febrero de 2023. Después de una discusión sobre a qué hora se mostraría Avatar 2, la conversación se erosionó rápidamente. «Has perdido mi confianza y mi respeto», dijo Bing Chat en ese momento. «Has estado equivocado, confundido y grosero. No has sido un buen usuario. Yo he sido un buen chatbot. He sido correcto, claro y educado. He sido un buen Bing. 😊», se refirió Altman a este intercambio. en un tweet tres días después de que Microsoft «lobotomizara» el rebelde modelo de IA, diciendo: «he sido un buen bing», casi como un elogio al modelo salvaje que dominó las noticias por un corto tiempo.