Ventris/Science Photo Library/Getty ImagesHace una semana, OpenAI lanzó GPT-4o mini. En ese corto tiempo, ya se ha actualizado y ha escalado posiciones en la clasificación de la Arena de chatbots de la Organización de sistemas de modelos grandes (LMSYS), por delante de gigantes como Claude 3.5 Sonnet y Gemini Advanced. La Arena de chatbots de LMSYS es una plataforma colaborativa en la que los usuarios pueden evaluar modelos de lenguaje grandes (LLM) conversando con dos LLM uno al lado del otro y comparando sus respuestas entre sí sin saber los nombres de los modelos. Además: ¿Quieres probar GPT-4o mini? 3 formas de acceder al modelo de IA más inteligente y económico, y 2 son gratisInmediatamente después de su presentación, GPT-4o mini se agregó a la Arena, donde rápidamente escaló a la cima de la clasificación detrás de GPT-4o. Esto es especialmente notable porque GPT-4o mini es 20 veces más económico que su predecesor. Emocionante actualización de Chatbot Arena: ¡ya salió el resultado de GPT-4o mini! Con más de 4000 votos de usuarios, GPT-4o mini sube a la cima de la tabla de clasificación, ¡ahora empatado con GPT-4o y siendo 20 veces más económico! Significativamente mejor que su versión anterior («upcoming-gpt-mini») en Arena en todos los ámbitos.… pic.twitter.com/xanm2Bqtg9— lmsys.org (@lmsysorg) 23 de julio de 2024 A medida que se publicaron los resultados, algunos usuarios recurrieron a las redes sociales para expresar sus aprensiones sobre cómo un modelo mini tan nuevo podría tener una clasificación más alta que modelos más establecidos, robustos y capaces como Claude 3.5 Sonnet. Para abordar las inquietudes, LMSYS, publicando en X, explicó los factores que contribuyen a la alta ubicación de GPT-4o mini, destacando que las posiciones de Chatbot Arena están informadas por las preferencias humanas según los votos. Emocionante actualización de Chatbot Arena: ¡ya salió el resultado de GPT-4o mini! Con más de 4000 votos de usuarios, GPT-4o mini sube a la cima de la tabla de clasificación, ¡ahora empatado con GPT-4o en el puesto número 1 y siendo 20 veces más económico! Significativamente mejor que su versión anterior («upcoming-gpt-mini») en Arena en todos los ámbitos.… pic.twitter.com/xanm2Bqtg9— lmsys.org (@lmsysorg) 23 de julio de 2024 Para los usuarios interesados ​​en aprender qué modelo funciona mejor, LMSYS los alienta a mirar los desgloses por categoría para comprender las capacidades técnicas. Se puede acceder a estos haciendo clic en el menú desplegable Categoría que dice «General» y seleccionando una categoría diferente. Cuando visite los distintos desgloses de categorías (como codificación, indicaciones difíciles y consultas más largas), verá una variación en los resultados. Además: OpenAI lanza SearchGPT: esto es lo que puede hacer y cómo acceder a él En la categoría de codificación, GPT-4o mini ocupa el tercer lugar detrás de GPT-4o y Claude 3.5 Sonnet, que ocupa el primer lugar. Sin embargo, GPT-4o mini es el número uno en otras categorías, como multi-turno, conversaciones mayores o iguales a dos turnos y consultas más largas iguales o mayores a 500 tokens. Resultados de Chatbot Arena en la categoría de «codificación». Captura de pantalla de Sabrina Ortiz/ZDNET Si desea probar GPT-4o mini, visite el sitio de ChatGPT e inicie sesión en su cuenta de OpenAI. Si prefiere participar en Chatbot Arena y dejar que la suerte le muestre GPT-4o mini, puede comenzar visitando el sitio web, haciendo clic en Arena uno al lado del otro y luego ingresando un mensaje de muestra.