Los desarrolladores de Terminal-Bench, un conjunto de pruebas para evaluar el rendimiento de agentes autónomos de IA en tareas basadas en terminales del mundo positivo, han atrevido interpretación 2.0 yuxtapuesto…