
Un nuevo situación desarrollado por investigadores de Google Cloud y DeepMind tiene como objetivo encarar uno de los desafíos secreto del ampliación de agentes de uso informático (CUA): resumir ejemplos de capacitación de inscripción calidad a escalera.
El situación, denominado Mira y aprende (W&L), aborda el problema de la vivientes de datos de entrenamiento de una guisa que no requiere anotaciones humanas y puede extraer automáticamente demostraciones de videos sin procesar.
Sus experimentos muestran que los datos W&L generados se pueden utilizar para entrenar o ajustar el uso de computadoras existentes y los modelos básicos para mejorar su desempeño en las tareas de uso de computadoras. Pero igualmente importante es que se puede utilizar el mismo enfoque para crear estudios en contexto (ICL) para agentes de uso de computadoras, que permiten a las empresas crear CUA para tareas internas personalizadas sin la penuria de una costosa capacitación de modelos especializados.
El cuello de botella de datos de CUA
La web está repleta de tutoriales en vídeo y capturas de pantalla que describen flujos de trabajo complejos para el uso de aplicaciones. Estos vídeos son una mina de oro que puede proporcionar agentes de uso de computadora con conocimiento del dominio e instrucciones para realizar diferentes tareas a través de interacciones de interfaz de adjudicatario.
Sin secuestro, antaño de que puedan estar de moda para capacitar a los agentes CUA, estos videos deben transformarse en trayectorias anotadas (es afirmar, un conjunto de descripciones de tareas, capturas de pantalla y acciones), un proceso que es prohibitivamente costoso y requiere mucho tiempo cuando se realiza manualmente.
Los enfoques existentes para encarar este cuello de botella de datos se basan en anotar estos videos mediante el uso de modelos de jerga multimodal, lo que generalmente resulta en ejemplos defectuosos y de víctima precisión. Un enfoque diferente utiliza agentes de esparcimiento autónomo que exploran de forma autónoma las interfaces de adjudicatario para resumir trayectorias. Sin secuestro, las técnicas que utilizan este enfoque suelen crear ejemplos simples que no son efectos en situaciones impredecibles del mundo actual.
Como señalan los investigadores en su artículo: “En genérico, estos enfoques se basan en heurísticas frágiles, son costosos porque se basan en exploraciones en entornos reales o generan demostraciones de víctima complejidad que no están alineadas con la intención humana”.
Mira y aprende
El situación Watch & Learn intenta encarar los desafíos de crear demostraciones de CUA repensando la formulación del problema.
En circunstancia de ocasionar trayectorias directamente o pender de complejos procesos de múltiples etapas, los investigadores encuadran el problema como un “objetivo de dinámica inversa”: dadas dos observaciones consecutivas, predecir la entusiasmo intermedia que produjo la transición.
Según los investigadores, esta formulación es “más liviana de formarse, evita heurísticas hechas a mano y se generaliza de guisa sólida entre aplicaciones”.
El situación de W&L se puede dividir en tres etapas secreto: entrenar un maniquí de dinámica inversa (IDM), recuperar videos sin procesar y capacitar a agentes CUA.
En la primera grado, los investigadores utilizaron agentes para interactuar con páginas web en vivo para crear un gran corpus de 500.000 transiciones de estado (dos observaciones consecutivas y la entusiasmo que resultó en la transición). Luego utilizaron estos datos (contiguo con 132.000 transiciones anotadas por humanos de conjuntos de datos abiertos existentes) para entrenar un maniquí de dinámica inversa (IDM) que toma dos observaciones consecutivas y predice la entusiasmo de transición. Su IDM entrenado, que es un maniquí de transformador pequeño, superó a los modelos básicos disponibles en el mercado en la predicción de acciones de transición.
Luego, los investigadores diseñaron un canal que recupera videos de plataformas como YouTube y los ejecuta a través de IDM para ocasionar trayectorias de inscripción calidad. El IDM toma cuadros de video consecutivos y determina las acciones (desplazarse, hacer clic) que causaron los cambios en el entorno, que luego se empaquetan en trayectorias anotadas. Utilizando este método, generaron 53.125 trayectorias con etiquetas de entusiasmo de inscripción precisión.
Estos ejemplos se pueden utilizar para entrenar modelos eficaces de uso de computadoras para tareas específicas. Pero los investigadores incluso descubrieron que las trayectorias extraídas mediante IDM pueden servir como ejemplos de estudios en contexto para mejorar el rendimiento de las CUA en tareas personalizadas en el momento de la inferencia. Para ICL, utilizan Gemini 2.5 Flash para asociar anotaciones de razonamiento adicionales a los ejemplos de observación/entusiasmo en las trayectorias, que luego se pueden insertar en el mensaje del agente CUA (generalmente de 3 a 5 ejemplos) durante la inferencia.
“Esta doble función (formación y orientación en contexto) permite una integración flexible tanto con modelos de código extenso como con agentes de propósito genérico”, escriben los investigadores.
W&L en entusiasmo
Para probar la utilidad de W&L, los investigadores realizaron una serie de experimentos con modelos de código extenso y cerrado en el Punto de remisión de OSWorldque evalúa agentes en entornos reales de escritorio y sistema operante en diferentes tareas, incluida la productividad, la programación y el diseño.
Para realizar ajustes, utilizaron su corpus de 53.000 trayectorias para entrenar dos modelos de código extenso: UI-TARS-1.5, un potente maniquí de visión, jerga y entusiasmo de código extenso diseñado específicamente para uso en computadoras, y Qwen 2.5-VLun LLM multimodal de peso extenso.
Para las pruebas de estudios en contexto, aplicaron ejemplos de W&L a modelos multimodales de uso genérico como Gemini 2.5 Flash, OpenAI o3 y Claude Sonnet 4.
W&L resultó en mejoras en OSWorld en todas las categorías de modelos, incluidos hasta 3 puntos para ICL en modelos de uso genérico y hasta 11 puntos para modelos de código extenso optimizados.
Más importante aún, estos beneficios se lograron sin ninguna anotación manual, “lo que demuestra que los flujos de trabajo humanos a escalera web pueden servir como una colchoneta ejercicio y escalable para hacer avanzar las CUA en torno a la implementación en el mundo actual”, escriben los investigadores.
Esto podría tener implicaciones importantes para las aplicaciones del mundo actual, permitiendo a las empresas convertir sus corpus existentes de videos y grabaciones de conferencias en datos de capacitación para CUA. Todavía facilita la vivientes de nuevas trayectorias formativas. Todo lo que necesitará hacer es tallar videos de la realización de diferentes tareas y hacer que un IDM los anote. Y con los modelos de vanguardia mejorando constantemente y volviéndose más baratos, puede esperar obtener más de sus datos existentes y el campo continúa progresando.




