¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora la adopción de estándares de interoperabilidad, como el Protocolo de contexto del modelo (MCP), puede proporcionar a las empresas ideas sobre cómo funcionan los agentes y los modelos fuera de sus confines amurallados. Sin embargo, muchos puntos de referencia no pueden capturar las interacciones de la vida real con MCP. Salesforce AI Research desarrolló un nuevo punto de referencia de código abierto que llama MCP-Universe, que tiene como objetivo rastrear a los LLM a medida que estos interactúan con los servidores MCP en el mundo real, argumentando que pintará una mejor imagen de las interacciones en tiempo real y en tiempo real de modelos con herramientas que realmente usan. En sus pruebas iniciales, descubrió que modelos como el GPT-5 lanzados recientemente de OpenAI son fuertes, pero aún así no funcionan tan bien en escenarios de la vida real. «Los puntos de referencia existentes se centran predominantemente en aspectos aislados del rendimiento de LLM, como el seguimiento de la instrucción, el razonamiento matemático o las llamadas de funciones, sin proporcionar una evaluación integral de cómo los modelos interactúan con los servidores MCP del mundo real en diversos escenarios», dijo Salesforce en un documento. MCP-Universe captura el rendimiento del modelo a través del uso de herramientas, llamadas de herramientas múltiples, ventanas de contexto largas y grandes espacios de herramientas. Se basa en los servidores MCP existentes con acceso a fuentes y entornos de datos reales. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo Junnan Li, Director de AI Research at Salesforce, dijo a ViverureBeat que muchos modelos aún se enfrentan a las limitaciones que tienen las limitaciones de la entrada. «Dos de los más grandes son: desafíos de contexto largos, los modelos pueden perder la rastreo de información o luchar para razonar de manera consistente al manejar entradas muy largas o complejas», dijo Li. «Y, los desafíos de herramientas desconocidos, los modelos a menudo no pueden usar sin problemas herramientas o sistemas desconocidos en la forma en que los humanos pueden adaptarse sobre la mosca. Es por eso que es crucial no adoptar un enfoque de bricolaje con un solo modelo solo para alimentar los agentes, pero para confiar en una plataforma que combina el contexto de datos, el razonamiento mejorado y las guardias de confianza para satisfacer realmente las necesidades de las necesidades de IA empresariales». MCP-Universe se une a otros puntos de referencia propuestos con sede en MCP, como MCP-Radar de la Universidad de Massachusetts Amherst y la Universidad Xi’an Jiaotong, así como la Universidad de Postes de Beijing y McPworld de Telecomunications. También se basa en McPevals, que Salesforce se lanzó en julio, que se centra principalmente en los agentes. Li dijo que la mayor diferencia entre MCP-Universe y McPevals es que este último se evalúa con tareas sintéticas. Cómo funciona MCP-Universe evalúa qué tan bien cada modelo realiza una serie de tareas que imitan las realizadas por las empresas. Salesforce dijo que diseñó MCP-Universe para abarcar seis dominios principales utilizados por las empresas: navegación de ubicación, gestión de repositorio, análisis financiero, diseño 3D, automatización de navegadores y búsqueda web. Accedió a 11 servidores MCP para un total de 231 tareas. La navegación de ubicación se centra en el razonamiento geográfico y la ejecución de tareas espaciales. Los investigadores aprovecharon el servidor MCP de Google Maps para este proceso. El dominio de administración de repositorio analiza las operaciones de la base de código y se conecta al GitHub MCP para exponer herramientas de control de versiones como búsqueda de reposio, seguimiento de problemas y edición de código. El análisis financiero se conecta al servidor MCP de Yahoo Finance para evaluar el razonamiento cuantitativo y la toma de decisiones del mercado financiero. El diseño 3D evalúa el uso de herramientas de diseño asistidas por computadora a través de la licuadora MCP. La automatización del navegador, conectada al MCP del dramaturgo, prueba la interacción del navegador. El dominio de búsqueda web emplea el servidor MCP de Google Search y el Fetch MCP para verificar la «búsqueda de información abierta de dominio» y está estructurada como una tarea más abierta. Salesforce dijo que tenía que diseñar nuevas tareas de MCP que reflejen casos de uso reales. Para cada dominio, crearon de cuatro a cinco tipos de tareas que los investigadores creen que LLMS puede completar fácilmente. Por ejemplo, los investigadores asignaron a los modelos un objetivo que involucraba la planificación de rutas, identificando las paradas óptimas y luego localizar el destino. Cada modelo se evalúa sobre cómo completaron las tareas. Li y su equipo optaron por seguir un paradigma de evaluación basado en la ejecución en lugar del sistema LLM-as-A-Judge más común. Los investigadores señalaron que el paradigma LLM-As-A-Judge «no es adecuado para nuestro escenario MCP-Universe, ya que algunas tareas están diseñadas para usar datos en tiempo real, mientras que el conocimiento del juez de LLM es estático». Los investigadores de Salesforce utilizaron tres tipos de evaluadores: formatear evaluadores para ver si los agentes y los modelos siguen los requisitos de formato, evaluadores estáticos para evaluar la corrección a lo largo del tiempo y los evaluadores dinámicos para las respuestas fluctuantes como los precios de los vuelos o los problemas de Github. «MCP-Universe se enfoca en crear tareas desafiantes del mundo real con evaluadores basados en la ejecución, lo que puede probar al agente en escenarios complejos. Además, MCP-Universe ofrece un marco/base de código extensible para construir y evaluar a los agentes», dijo Li. Incluso los grandes modelos tienen problemas para probar MCP-Universe, Salesforce evaluó varios modelos populares de propiedad y de código abierto. Estos incluyen Grok-4 de XAI, el soneto Claude-4 de Anthrope y el soneto Claude 3.7, el GPT-5 de OpenAi, O4-Mini, O3, GPT-4.1, GPT-4O, GPT-ASS, Gemini 2.5 Pro y Gemini 2.5 Fkash, GLM-4.5 de Google, Qwens y Qwen’s Qwen 3 Coders, Glm-4.5 de ZIMI-K2, Qwen’s Qwens y Qwen’s Qwen 3, y Qwen 3 de Moonshot, Qwen 3. QWEN3-235B-A22B-INSTRUCT-2507 y Deepseek-V3-0304 de Deepseek. Cada modelo probado tenía al menos 120b parámetros. En sus pruebas, Salesforce encontró que GPT-5 tenía la mejor tasa de éxito, especialmente para las tareas de análisis financiero. Grok-4 siguió, superando a todos los modelos para la automatización del navegador, y el soneto de Claude-4.0 redondea los tres primeros, aunque no publicó ningún número de rendimiento más alto que cualquiera de los modelos que sigue. Entre los modelos de código abierto, GLM-4.5 funcionó mejor. Sin embargo, MCP-Universe mostró que los modelos tenían dificultades para manejar contextos largos, especialmente para la navegación de ubicación, la automatización del navegador y el análisis financiero, con una eficiencia significativamente. En el momento en que los LLM se encuentran con herramientas desconocidas, su rendimiento también cae. Los LLM demostraron dificultades para completar más de la mitad de las tareas que las empresas suelen realizar. «Estos hallazgos destacan que las LLM de fronteras actuales aún se quedan cortas en la ejecución de tareas de manera confiable en diversas tareas de MCP del mundo real. Nuestro punto de referencia MCP-Universo, por lo tanto, proporciona una prueba de prueba desafiante y necesaria para evaluar el rendimiento de LLM en áreas desatendidas por los puntos de referencia existentes», dijo el documento. Li dijo a VentureBeat que espera que las empresas usen MCP-Universe para obtener una comprensión más profunda de dónde los agentes y modelos fallan en las tareas para que puedan mejorar sus marcos o la implementación de sus herramientas MCP. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta