
Los desarrolladores de Terminal-Bench, un conjunto de pruebas para evaluar el rendimiento de agentes autónomos de IA en tareas basadas en terminales del mundo positivo, han atrevido interpretación 2.0 yuxtapuesto a Puertoun nuevo situación para probar, mejorar y optimizar agentes de IA en entornos en contenedores.
La interpretación dual tiene como objetivo chocar puntos débiles de larga data en las pruebas y optimización de los agentes de IA, en particular aquellos diseñados para intervenir de forma autónoma en entornos de crecimiento realistas.
Con un conjunto de tareas más difícil y rigurosamente verificado, Terminal-Bench 2.0 reemplaza a la interpretación 1.0 como estereotipado para evaluar las capacidades del maniquí de frontera.
Harbor, el situación de tiempo de ejecución que lo acompaña, permite a los desarrolladores e investigadores avanzar las evaluaciones en miles de contenedores en la montón y se integra con agentes y canales de capacitación tanto de código campechano como propietarios.
“Harbour es el paquete que desearíamos deber tenido al crear Terminal-Bench," escribió co-creador Alex Shaw en X. "Es para investigadores e investigadores de agentes, modelos y pruebas comparativas que desean evaluar y mejorar agentes y modelos."
Mostrador más suscripción, datos más limpios
Terminal-Bench 1.0 experimentó una rápida admisión posteriormente de su dispersión en mayo de 2025convirtiéndose en un punto de remisión predeterminado para evaluar el rendimiento de los agentes en todo el campo de agentes impulsados por IA que operan en entornos de terminales de estilo desarrollador. Estos agentes interactúan con los sistemas a través de la itinerario de comandos, imitando cómo trabajan los desarrolladores detrás de espectáculo de la interfaz gráfica de beneficiario.
Sin requisa, su amplio capacidad trajo consigo inconsistencias. La comunidad identificó varias tareas como mal especificadas o inestables adecuado a cambios en los servicios externos.
La interpretación 2.0 aborda esos problemas directamente. El conjunto actualizado incluye 89 tareas, cada una sujeta a varias horas de energía manual y asistida por LLM. El ceremonia está en hacer que las tareas sean solucionables, realistas y claramente especificadas, elevando el orilla de dificultad y mejorando al mismo tiempo la confiabilidad y reproducibilidad.
Un ejemplo trascendente es el download-youtube tarea, que fue eliminada o refactorizada en 2.0 adecuado a su dependencia de API inestables de terceros.
“Los fanáticos astutos de Terminal-Bench pueden notar que el rendimiento de SOTA es comparable al de TB1.0 a pesar de nuestra afirmación de que TB2.0 es más difícil”, Shaw anotado en X. “Creemos que esto se debe a que la calidad de la tarea es sustancialmente anciano en el nuevo punto de remisión”.
Harbor: Implementaciones unificadas a escalera
Encima de la modernización del benchmark, el equipo lanzó Puertoun nuevo situación para ejecutar y evaluar agentes en contenedores implementados en la montón.
Harbor admite infraestructura de implementación a gran escalera, con compatibilidad para proveedores importantes como diatona y Modal.
Diseñado para generalizarse en todas las arquitecturas de agentes, Harbor admite:
-
Evaluación de cualquier agente instalable en contenedor.
-
Canalizaciones escalables de ajuste fino supervisado (SFT) y educación por refuerzo (RL)
-
Creación e implementación de pruebas comparativas personalizadas
-
Integración total con Terminal-Bench 2.
Harbor se utilizó internamente para ejecutar decenas de miles de implementaciones durante la creación del nuevo punto de remisión. Ahora está habitable públicamente a través de harbourframework.comcon documentación para probar y cursar agentes a la tabla de clasificación pública.
Resultados iniciales: GPT-5 lidera el éxito de las tareas
Los resultados iniciales de la tabla de clasificación Terminal-Bench 2.0 muestran que Codex CLI (interfaz de itinerario de comando) de OpenAI, una variable impulsada por GPT-5, está a la inicio, con una tasa de éxito del 49,6%, la más suscripción entre todos los agentes probados hasta ahora.
De cerca se encuentran otras variantes de GPT-5 y agentes basados en Claude Sonnet 4.5.
Los 5 mejores resultados de agentes (Terminal-Bench 2.0):
-
CLI del Códice (GPT-5): 49,6 %
-
CLI del Códice (GPT-5-Codex): 44,3 %
-
Manos abiertas (GPT-5): 43,8%
-
Terminal 2 (GPT-5-Codex): 43,4%
-
Terminal 2 (Claude Sonnet 4,5): 42,8%
La estrecha agrupación entre los mejores modelos indica una competencia activa entre plataformas, sin que ningún agente resuelva más de la medio de las tareas.
Remisión y uso
Para probar o cursar un agente, los usuarios instalan Harbor y ejecutan la prueba comparativa mediante comandos CLI simples. Los envíos a la tabla de clasificación requieren cinco ejecuciones de remisión y los resultados se pueden cursar por correo electrónico a los desarrolladores yuxtapuesto con los directorios de trabajos para su energía.
reconvención portuario -d banco-terminal@2.0 -m "
Terminal-Bench 2.0 ya se está integrando en flujos de trabajo de investigación centrados en el razonamiento agente, la vivientes de código y el uso de herramientas. Según el cocreador Mike Merrill, investigador postdoctoral en Stanford, se está realizando una preimpresión detallada que cubre el proceso de comprobación y la metodología de diseño detrás del punto de remisión.
Apuntando a la estandarización
El dispersión combinado de Terminal-Bench 2.0 y Harbor marca un paso en torno a una infraestructura de evaluación de agentes más consistente y escalable. A medida que los agentes LLM proliferan en entornos operativos y de crecimiento, ha aumentado la carestia de pruebas controladas y reproducibles.
Estas herramientas ofrecen una almohadilla potencial para una pila de evaluación unificada, que respalda la mejoría de modelos, la simulación del entorno y la estandarización de puntos de remisión en todo el ecosistema de IA.






