El punto de remisión MCP-Universe muestra que GPT-5 defecto más de la fracción de las tareas de orquestación del mundo actual

$El punto de remisión MCP-Universe muestra que GPT-5 defecto más de la fracción de las tareas de orquestación del mundo actual$

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

La acogida de estándares de interoperabilidad, como el Protocolo de contexto del maniquí (MCP), puede proporcionar a las empresas ideas sobre cómo funcionan los agentes y los modelos fuera de sus confines amurallados. Sin bloqueo, muchos puntos de remisión no pueden capturar las interacciones de la vida actual con MCP.

Salesforce AI Research desarrolló un nuevo punto de remisión de código amplio que pasión MCP-Universe, cuyo objetivo es rastrear LLM a medida que estos interactúan con los servidores MCP en el mundo actual, argumentando que pintará una mejor imagen de las interacciones de la vida actual y las interacciones en tiempo actual de modelos con herramientas que efectivamente usan. En sus pruebas iniciales, encontró que modelos como Opadai‘s recientemente audaz GPT-5 son fuertes, pero aún no funcionan tan correctamente en escenarios de la vida actual.

“Los puntos de remisión existentes se centran predominantemente en los aspectos aislados del rendimiento de LLM, como el seguimiento de la instrucción, el razonamiento matemático o las llamadas de funciones, sin proporcionar una evaluación exhaustiva de cómo los modelos interactúan con los servidores MCP del mundo actual en diversos escenarios”, dijo Salesforce en un papel.

MCP-Universe captura el rendimiento del maniquí a través del uso de herramientas, llamadas de herramientas múltiples, ventanas de contexto largas y grandes espacios de herramientas. Se sostén en los servidores MCP existentes con ataque a fuentes y entornos de datos reales.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una superioridad estratégica

Construcción de inferencia apto para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su área para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Junnan Li, director de AI Research en Salesforce, dijo a VentureBeat que muchos modelos “aún enfrentan limitaciones que los detienen en las tareas de escalón empresarial”.

“Dos de los más grandes son: desafíos de contexto largos, los modelos pueden perder la rastreo de información o guerrear para razonar de guisa consistente al manejar entradas muy largas o complejas”, dijo Li. “Y, los desafíos de herramientas desconocidos, los modelos a menudo no pueden usar sin problemas herramientas o sistemas desconocidos en la forma en que los humanos pueden adaptarse sobre la mosca. Es por eso que es crucial no adoptar un enfoque de bricolaje con un solo maniquí solo para respaldar los agentes, pero para abandonarse en una plataforma que combina el contexto de datos, el razonamiento mejorado y las guardias de confianza para satisfacer efectivamente las evacuación de las evacuación de IA empresariales”.

MCP-Universe se une a otros puntos de remisión propuestos con sede en MCPcomo Radar mcp de la Universidad de Massachusetts Amherst y la Universidad Xi’an Jiaotong, así como la Universidad de puestos y telecomunicaciones de Beijing ‘ Mcpworld. Además se sostén en McPevals, que Salesforce se lanzó en julio, que se centra principalmente en los agentes. Li dijo que la longevo diferencia entre MCP-Universe y McPevals es que este posterior se evalúa con tareas sintéticas.

Cómo funciona

MCP-Universe evalúa qué tan correctamente cada maniquí realiza una serie de tareas que imitan las realizadas por las empresas. Salesforce dijo que diseñó MCP-Universe para abrazar seis dominios principales utilizados por las empresas: navegación de ubicación, administración de repositorio, investigación financiero, diseño 3D, automatización de navegadores y búsqueda web. Accedió a 11 servidores MCP para un total de 231 tareas.

La navegación de ubicación se centra en el razonamiento geográfico y la ejecución de tareas espaciales. Los investigadores aprovecharon el servidor MCP de Google Maps para este proceso.

El dominio de delegación de repositorio analiza las operaciones de la almohadilla de código y se conecta al GitHub MCP para exponer herramientas de control de versiones como búsqueda de reposio, seguimiento de problemas y tiraje de código.

El investigación financiero se conecta al servidor MCP de Yahoo Finance para evaluar el razonamiento cuantitativo y la toma de decisiones del mercado financiero.

El diseño 3D evalúa el uso de herramientas de diseño asistidas por computadora a través de la licuadora MCP.

La automatización del navegador, conectada al MCP del dramaturgo, prueba la interacción del navegador.

El dominio de búsqueda web emplea el servidor MCP de Google Search y el Fetch MCP para repasar la “búsqueda de información abierta de dominio” y está estructurada como una tarea más abierta.

Salesforce dijo que tenía que diseñar nuevas tareas de MCP que reflejen casos de uso reales. Para cada dominio, crearon de cuatro a cinco tipos de tareas que los investigadores creen que LLMS puede completar fácilmente. Por ejemplo, los investigadores asignaron a los modelos un objetivo que involucraba la planificación de rutas, identificando las paradas óptimas y luego hallar el destino.

Cada maniquí se evalúa sobre cómo completaron las tareas. Li y su equipo optaron por seguir un prototipo de evaluación basado en la ejecución en área del sistema LLM-as-A-Judge más global. Los investigadores señalaron que el prototipo LLM-As-A-Judge “no es adecuado para nuestro proscenio MCP-Universe, ya que algunas tareas están diseñadas para usar datos en tiempo actual, mientras que el conocimiento del árbitro de LLM es paralizado”.

Los investigadores de Salesforce utilizaron tres tipos de evaluadores: formatear evaluadores para ver si los agentes y los modelos siguen los requisitos de formato, evaluadores estáticos para evaluar la corrección a lo holgado del tiempo y los evaluadores dinámicos para las respuestas fluctuantes como los precios de los vuelos o los problemas de Github.

“MCP-Universe se enfoca en crear tareas desafiantes del mundo actual con evaluadores basados en la ejecución, lo que puede probar al agente en escenarios complejos. Encima, MCP-Universe ofrece un entorno/almohadilla de código desplegable para construir y evaluar a los agentes”, dijo Li.

Incluso los grandes modelos tienen problemas

Para probar MCP-Universe, Salesforce evaluó varios modelos populares de propiedad y código amplio. Estos incluyen Grok-4 de Xai, Antrópico‘S-Claude-4 Sunt y Claude 3.7 Sunt, Oenai’s GPT-5, O4-Mini, O3, GPT-4.1, GPT-OTP, Google‘S Gemini 2.5 Pro y Géminis 2.5 FKash, GLM-4.5 de Quería, Tacha‘S Kimi-K2, Qwen‘S QWEN3 CODER y QWEN3-235B-A22B-INSTRUCT-25507 y Deepseek-V3-0304 de Experto. Cada maniquí probado tenía al menos 120b parámetros.

En sus pruebas, Salesforce encontró que GPT-5 tenía la mejor tasa de éxito, especialmente para las tareas de investigación financiero. Grok-4 siguió, superando a todos los modelos para la automatización del navegador, y el soneto de Claude-4.0 redondea los tres primeros, aunque no publicó ningún número de rendimiento más stop que cualquiera de los modelos que sigue. Entre los modelos de código amplio, GLM-4.5 funcionó mejor.

Sin bloqueo, MCP-Universe mostró que los modelos tenían dificultades para manejar contextos largos, especialmente para la navegación de ubicación, la automatización del navegador y el investigación financiero, con una eficiencia significativamente. En el momento en que los LLM se encuentran con herramientas desconocidas, su rendimiento además cae. Los LLM demostraron dificultades para completar más de la fracción de las tareas que las empresas suelen realizar.

“Estos hallazgos destacan que las LLM de fronteras actuales aún se quedan cortas en la ejecución de tareas de guisa confiable en diversas tareas de MCP del mundo actual. Nuestro punto de remisión MCP-Universo, por lo tanto, proporciona una prueba de prueba desafiante y necesaria para evaluar el rendimiento de LLM en áreas desatendidas por los puntos de remisión existentes”, dijo el documento.

Li dijo a VentureBeat que prórroga que las empresas usen MCP-Universe para obtener una comprensión más profunda de dónde los agentes y modelos fallan en las tareas para que puedan mejorar sus marcos o la implementación de sus herramientas MCP.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jerarca, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.