¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora los modelos de prueba de referencia se han vuelto esenciales para las empresas, lo que les permite elegir el tipo de rendimiento que resuena con sus necesidades. Pero no todos los puntos de referencia se construyen de la misma manera y muchos modelos de prueba se basan en conjuntos de datos estáticos o entornos de prueba. Investigadores de la IA de inclusión, que está afiliada al grupo de hormigas de Alibaba, propusieron una nueva tabla de clasificación de modelos y un punto de referencia que se centra más en el rendimiento de un modelo en escenarios de la vida real. Argumentan que los LLM necesitan una tabla de clasificación que tenga en cuenta cómo las personas los usan y cuánto las personas prefieren sus respuestas en comparación con las capacidades de conocimiento estático que tienen los modelos. En un artículo, los investigadores establecieron las bases para la arena de inclusión, que clasifica a los modelos basados en las preferencias de los usuarios. «Para abordar estas brechas, proponemos la arena de inclusión, una tabla de clasificación en vivo que une las aplicaciones con IA en el mundo real con las batallas modelo de última generación. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4MWGNGO Emplea el método de modelado Bradley-Terry, similar al utilizado por Chatbot Arena. La arena de inclusión funciona integrando el punto de referencia en aplicaciones de IA para recopilar conjuntos de datos y realizar evaluaciones humanas. Los investigadores admiten que «el número de aplicaciones inicialmente integradas con AI es limitado, pero nuestro objetivo es construir una alianza abierta para expandir el ecosistema». En este momento, la mayoría de las personas están familiarizadas con las tablas de clasificación y los puntos de referencia promocionando el rendimiento de cada nuevo LLM publicado por compañías como OpenAi, Google o Anthrope. VentureBeat no es ajeno a estas tablas de clasificación, ya que algunos modelos, como Grok 3 de Xai, muestran su poder al encabezar la clasificación de Chatbot Arena. Los investigadores de IA de inclusión argumentan que su nueva tabla de clasificación «garantiza que las evaluaciones reflejen escenarios de uso práctico», por lo que las empresas tienen una mejor información sobre los modelos que planean elegir. El uso de la arena de inclusión del método Bradley-Therry se inspira en el chatbot arena, utilizando el método Bradley-Terry, mientras que el chatbot arena también emplea el método de clasificación ELO simultáneamente. La mayoría de las tablas de clasificación confían en el método ELO para establecer clasificaciones y rendimiento. Elo se refiere a la calificación ELO en el ajedrez, lo que determina la habilidad relativa de los jugadores. Tanto ELO como Bradley-Terry son marcos probabilísticos, pero los investigadores dijeron que Bradley-Terry produce más calificaciones estables. «El modelo Bradley-Terry proporciona un marco robusto para inferir habilidades latentes de los resultados de comparación por pares», dijo el documento. «Sin embargo, en escenarios prácticos, particularmente con un número grande y creciente de modelos, la posibilidad de comparaciones exhaustivas por pares se vuelve computacionalmente prohibitiva y intensiva en recursos. Esto resalta una necesidad crítica de estrategias de batalla inteligentes que maximizan la ganancia de información dentro de un presupuesto limitado». Para que la clasificación sea más eficiente frente a una gran cantidad de LLM, la arena de inclusión tiene otros dos componentes: el mecanismo de coincidencia de colocación y el muestreo de proximidad. El mecanismo de coincidencia de colocación estima una clasificación inicial para nuevos modelos registrados para la tabla de clasificación. El muestreo de proximidad luego limita esas comparaciones con modelos dentro de la misma región de confianza. ¿Cómo funciona, entonces, ¿cómo funciona? El marco de inclusión Arena se integra en aplicaciones con AI. Actualmente, hay dos aplicaciones disponibles en la arena de inclusión: la aplicación de chat de personaje Joyland y la aplicación de comunicación educativa T-box. Cuando las personas usan las aplicaciones, las indicaciones se envían a múltiples LLM detrás de escena para respuestas. Luego, los usuarios eligen qué respuesta les gusta más, aunque no saben qué modelo generó la respuesta. El marco considera las preferencias del usuario para generar pares de modelos para la comparación. El algoritmo Bradley-Terry se usa para calcular una puntuación para cada modelo, que luego conduce a la tabla de clasificación final. La inclusión AI limitó su experimento en los datos hasta julio de 2025, que comprende 501,003 comparaciones por pares. Según los experimentos iniciales con la Arena de la inclusión, el modelo más desempeñado es el soneto Claude 3.7 de Anthrope, Deepseek V3-0324, el soneto Claude 3.5, Deepseek V3 y Qwen Max-0125. Por supuesto, estos fueron datos de dos aplicaciones con más de 46,611 usuarios activos, según el documento. Los investigadores dijeron que pueden crear una tabla de clasificación más robusta y precisa con más datos. Más tablas de clasificación, más opciones El número creciente de modelos que se están lanzando hace que sea más difícil para las empresas seleccionar qué LLMS comenzar a evaluar. Las tablas de clasificación y los puntos de referencia guían a los tomadores de decisiones técnicas a modelos que podrían proporcionar el mejor rendimiento para sus necesidades. Por supuesto, las organizaciones deben realizar evaluaciones internas para garantizar que los LLM sean efectivos para sus aplicaciones. También proporciona una idea del paisaje LLM más amplio, destacando qué modelos se están volviendo competitivos en comparación con sus compañeros. Los puntos de referencia recientes, como Recomptsbench 2 del Instituto Allen para el intento de alinear modelos con casos de uso de la vida real para empresas. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta