¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Investigadores de Salesforce y el Universidad del sur de California han desarrollado Una nueva técnica que brinda a los agentes de uso de la computadora la capacidad de ejecutar código mientras navega por las interfaces gráficas de adjudicatario (GUI)es afirmar, escribir scripts al tiempo que mueve un cursor y/o haciendo clic en una aplicación, combinando lo mejor de uno y otro enfoques para acelerar los flujos de trabajo y compendiar los errores.
Este enfoque híbrido permite que un agente suceder por detención los clics frágiles e ineficientes del mouse Para tareas que pueden realizarse mejor a través de la codificación.
El sistema, llamado Coacto-1establece un nuevo estado del arte en los puntos de remisión de agentes secreto, aventajar otros métodos mientras requiriendo significativamente menos pasos Para realizar tareas complejas en una computadora.
Esta modernización puede allanar el camino para una automatización de agentes más robusta y escalable con un potencial significativo para aplicaciones del mundo verdadero.
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una preeminencia estratégica
- Construcción de inferencia eficaz para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su circunstancia para mantenerse a la vanguardia: https://bit.ly/4mwgngo
La fragilidad de los agentes de IA de apuntar y hacer clic
Los agentes de uso de la computadora generalmente dependen de los modelos en idioma de visión y de batalla de visión (VLMS o VLA) para percibir una pantalla y tomar medidas, imitando cómo una persona usa un mouse y un teclado.
Si correctamente estos agentes basados en GUI pueden realizar una variedad de tareas, a menudo se vacilan cuando se enfrentan a flujos de trabajo largos y complejos, especialmente en aplicaciones con menús y opciones densascomo las suites de productividad de la oficina.
Por ejemplo, una tarea que implica circunscribir una tabla específica en una hoja de cálculo, filtrarla y guardarla como un nuevo archivo puede implicar una secuencia larga y precisa de manipulaciones de GUI.
Aquí es donde se introduce la fragilidad. “En estos escenarios, los agentes existentes con frecuencia luchan con la imprecisión visual de la cojín (por ejemplo, que distinguen entre iconos o fundamentos de menú visualmente similares) y la probabilidad acumulada de cometer un solo error en el horizonte dadivoso”, escriben los investigadores en su papel. “Un solo factor de interfaz de adjudicatario de mallaz o malignado puede descarrilar toda la tarea”.
Para asaltar estos desafíos, muchos investigadores se han centrado en aumentar los agentes de la GUI con planificadores de detención nivel.
Estos sistemas utilizan potentes modelos de razonamiento como O3 O3 para descomponer el objetivo de detención nivel de un adjudicatario en una secuencia de subtareas más pequeñas y más manejables.
Si correctamente este enfoque estructurado alivio el rendimiento, no resuelve el problema de navegar en menús y hacer clic en los ordenanza, incluso para operaciones que podrían realizarse de forma más directa y confiable con algunas líneas de código.
COACT-1: un equipo de múltiples agentes para tareas de computadora
Para resolver estas limitaciones, los investigadores crearon COACT-1 (agente de uso de la computadora con codificación como acciones), Un sistema diseñado para “combinar las fortalezas intuitivas de la manipulación de la GUI con la precisión, confiabilidad y eficiencia de la interacción del sistema directo a través del código”.
El sistema es Estructurado como un equipo de tres agentes especializados que trabajan juntos: un orquestador, un programador y un cámara de GUI.

El orquestador actúa como el planificador central o directivo de plan. Analiza el objetivo común del adjudicatario, lo descompone en subtareas y asigna cada subtarea al mejor agente para el trabajo. Puede delegar operaciones de backend como filial de archivos o procesamiento de datos al programador, que escribe y ejecuta scripts de Python o bash.
Para frontend Tareas que requieren hacer clic en los ordenanza o navegar por interfaces visuales, recurre al cámara GUI, un agente basado en VLM.
“Esta delegación dinámica permite que COACT-1 pase por detención estratégicamente las secuencias de GUI ineficientes a distinción de la ejecución robusta de código de disparo, cuando sea apropiado, al tiempo que aprovecha la interacción visual para tareas donde es indispensable”, dice el documento.
El flujo de trabajo es iterativo. Luego de que el programador o cámara de GUI complete una subtarea, envía un extracto y una captura de pantalla del estado coetáneo del sistema de regreso al orquestador, que luego decide el ulterior paso o concluye la tarea.
El agente programador utiliza un LLM para suscitar su código y envía comandos a un intérprete de código para probar y refinar su código en múltiples rondas.
Del mismo modo, el cámara GUI utiliza un intérprete de batalla que ejecuta sus comandos (por ejemplo, clics del mouse, escribiendo) y devuelve la captura de pantalla resultante, lo que permite ver el resultado de sus acciones. El orquestador toma la atrevimiento final sobre si la tarea debe continuar o detenerse.

Un camino más eficaz con destino a la automatización
Los investigadores probaron COACT-1 en Osworldun punto de remisión integral que incluye 369 tareas del mundo verdadero en navegadores, IDE y solicitudes de oficina.
Los resultados muestran COACT-1 establece un nuevo estado del arte, logrando una tasa de éxito del 60,76%.
Las ganancias de rendimiento fueron más significativas en las categorías donde el control programático ofrece una clara preeminencia, como tareas a nivel del sistema operante y flujos de trabajo de aplicaciones múltiples.
Por ejemplo, Considere una tarea de nivel del sistema operante como encontrar todos los archivos de imagen adentro de una estructura compleja de carpetas, cambiarlos y luego comprimir todo el directorio en un solo archivo.
A El agente puramente basado en GUI necesitaría realizar una secuencia larga y frágil de clics y remolqueRajar carpetas, pretender archivos y navegar menús, con una entrada probabilidad de error en cada paso.
COACT-1, por el contrario, puede delegar todo este flujo de trabajo a su agente programador, lo que puede realizar la tarea con un solo script robusto.

Más allá de una tasa de éxito más entrada, el sistema es dramáticamente más eficaz. Coact-1 resuelve tareas en un promedio de solo 10.15 pasos, un impresionado contraste con los 15.22 pasos requeridos por los principales agentes de GUI como GTA-1.
Mientras que otros agentes como el CUA 4O de OpenAI promediaron menos pasos, su tasa de éxito común fue mucho más víctima, lo que indica que la eficiencia de COACT-1 está contiguo con una longevo efectividad.
Los investigadores encontraron una tendencia clara: Las tareas que requieren más acciones tienen más probabilidades de dirimir. Disminuir el número de pasos no solo acelera la finalización de la tarea sino que, lo que es más importante, minimiza las oportunidades de error.
Por lo tanto, Encontrar formas de comprimir múltiples pasos de GUI en una sola tarea programática puede hacer que el proceso sea más eficaz y menos propenso a errores.
Como concluyen los investigadores, “esta eficiencia subraya el potencial de nuestro enfoque para allanar una ruta más robusta y escalable con destino a la automatización de computadoras generalizada”.

Desde el laboratorio hasta el flujo de trabajo empresarial
El potencial de esta tecnología va más allá de la productividad común. Para los líderes empresariales, la secreto radica en la automatización de procesos complejos y múltiples donde el acercamiento completo a la API es un opulencia, no una respaldo.
Ran Xu, coautor del documento y director de Apliced AI Research en Salesforce, señala la atención al cliente como un excelente ejemplo.
“Un agente de soporte de servicios utiliza muchas herramientas diferentes, herramientas generales como Salesforce, herramientas específicas de la industria, como EPIC para la atención médica y muchas herramientas personalizadas, para investigar una solicitud de cliente y formular una respuesta”, dijo Xu a VentureBeat. “Algunas de las herramientas tienen acercamiento a API, mientras que otras no. Es un caso de uso valentísimo que podría beneficiarse de nuestra tecnología: Un agente de uso de cuenta que aprovecha lo que esté habitable en la computadora, ya sea una API, código o solo la pantalla “.
Xu todavía ve aplicaciones de detención valía en las ventas, como prospectos a escalera y automatización de contabilidad, y en marketing para tareas como la segmentación de clientes y la gestación de activos de campaña.
Navegar por los desafíos del mundo verdadero y la obligación de supervisión humana
Si correctamente los resultados en el punto de remisión OSWorld son fuertes, los entornos empresariales son mucho más desordenados, llenos de software heredado y UI impredecibles.
Esto plantea preguntas críticas sobre robustez, seguridad y la obligación de supervisión humana.
Un desafío central es asegurar que el agente del orquestador tome la atrevimiento correcta cuando se enfrenta a una aplicación desconocida. Según Xu, la ruta para hacer que agentes como COACT-1 robustos para el software empresarial personalizado implique capacitarlos con comentarios en entornos realistas y simulados.
El objetivo es crear un sistema en el que el “agente pueda observar cómo trabajan los agentes humanos, entrenarse adentro de una caja de arena, y cuando se realice, continúe resolviendo las tareas bajo la plano y la pasamanos de un agente humano”.
La capacidad del agente del programador para ejecutar su propio código todavía introduce preocupaciones de seguridad obvias. ¿Qué impide que el agente ejecute un código dañino basado en una solicitud de adjudicatario ambigua?
Xu confirma que la contención robusta es esencial. “El control de acercamiento y el sandboxing es la secreto”, dijo, enfatizando que un humano debe “comprender la implicación y dar acercamiento a la IA por seguridad”.
El sandboxing y las barandillas serán fundamentales para validar el comportamiento del agente Antiguamente de la implementación en sistemas críticos.
En última instancia, en el futuro previsible, aventajar la imprecisión probablemente requerirá un humano en el caracolillo. Cuando se le preguntó sobre el manejo de consultas vagas de los usuarios, una preocupación todavía planteada en el documento, Xu sugirió un enfoque continuo. “Veo que comienza el humano en el caracolillo”, señaló.
Si correctamente algunas tareas eventualmente pueden volverse completamente autónomas, para las operaciones de detención aventura, la fuerza humana seguirá siendo crucial. “Algunos críticos de la empresa siempre pueden escasear la aprobación humana”.





