AGENTES DE COMPUTADOR DE OPENCUA AGENTES OPER COMPUTADOR Modelos propietarios de Operai y Anthrope

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Un nuevo ámbito de los investigadores en La Universidad de Hong Kong (HKU) y las instituciones colaboradoras proporcionan una saco de código franco para crear agentes de IA robustos que puedan actuar computadoras. El ámbito, llamado Opencuaincluye las herramientas, datos y recetas para ascender el expansión de agentes de uso informático (CUAS).

Los modelos entrenados con este ámbito funcionan fuertemente en los puntos de relato de CUA, superan a los modelos de código franco existentes y compiten estrechamente con los agentes cerrados de los principales laboratorios de IA como OpenAi y Anthrope.

El desafío de construir agentes de uso informático

Los agentes de uso de la computadora están diseñados para completar de forma autónoma las tareas en una computadora, desde la navegación de sitios web hasta el software engorroso activo. Igualmente pueden ayudar a automatizar los flujos de trabajo en la empresa. Sin confiscación, los sistemas CUA más capaces son patentados, con detalles críticos sobre sus datos de capacitación, arquitecturas y procesos de expansión mantenidos en privado.

“A medida que la error de transparencia limita los avances técnicos y plantea preocupaciones de seguridad, la comunidad de investigación necesita marcos de CUA efectivamente abiertos para estudiar sus capacidades, limitaciones y riesgos”, afirman los investigadores de su papel.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una delantera estratégica

Construcción de inferencia apto para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su punto para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Al mismo tiempo, los esfuerzos de código franco enfrentan su propio conjunto de obstáculos. No ha habido una infraestructura escalable para resumir los diversos datos a gran escalera necesarios para capacitar a estos agentes. Los conjuntos de datos de código franco existentes para interfaces gráficas de heredero (GUI) tienen datos limitados, y muchos proyectos de investigación proporcionan detalles insuficientes sobre sus métodos, lo que dificulta a los demás replicar su trabajo.

Según el documento, “estas limitaciones obstaculizan colectivamente los avances en los CUA de uso caudillo y restringen una exploración significativa de su escalabilidad, divulgación y posibles enfoques de enseñanza”.

Presentación de OpenCua

OpenCua Fieldwork: Xlang Lab y Hu

OpenCua es un ámbito de código franco diseñado para afrontar estos desafíos escalando tanto la colección de datos como los modelos mismos. En su núcleo está la utensilio Agentnet para tallar demostraciones humanas de tareas informáticas en diferentes sistemas operativos.

La utensilio optimiza la colección de datos ejecutándose en segundo plano en la computadora personal de un anotador, capturando videos de pantalla, entradas de mouse y teclado, y el árbol de accesibilidad subyacente, que proporciona información estructurada sobre instrumentos en pantalla. Luego, estos datos sin procesar se procesan en “trayectorias de batalla estatal”, combinando una captura de pantalla de la computadora (el estado) con la batalla correspondiente del heredero (un clic, contraseña presione, etc.). Los anotadores pueden revisar, editar y expedir estas demostraciones.

Angente

Utilizando esta utensilio, los investigadores recopilaron el conjunto de datos de AgentNet, que contiene más de 22,600 demostraciones de tareas en Windows, MacOS y Ubuntu, que zapatilla más de 200 aplicaciones y sitios web. “Este conjunto de datos captura auténticamente la complejidad de los comportamientos humanos y la dinámica ambiental de los entornos informáticos personales de los usuarios”, señala el documento.

Reconociendo que las herramientas de vídeo de pantalla plantean importantes preocupaciones de privacidad de datos para las empresas, los investigadores diseñaron la utensilio Agentnet con seguridad en mente. Xinyuan Wang, coautor del documento y el estudiante de doctorado en HKU, explicó que implementaron un ámbito de protección de la privacidad de múltiples capas. “Primero, los anotadores mismos pueden observar completamente los datos que generan … antaño de arriesgarse si enviarlos”, dijo a VentureBeat. Luego, los datos se someten a una comprobación manual para problemas de privacidad y escaneo automatizado por un maniquí ínclito para detectar cualquier contenido confidencial restante antaño de la traducción. “Este proceso en capas garantiza la robustez de naturaleza empresarial para entornos que manejan datos sensibles al cliente o financieros”, agregó Wang.

Para acelerar la evaluación, el equipo además seleccionó a AgentNetbench, un punto de relato fuera de tendencia que proporciona múltiples acciones correctas para cada paso, ofreciendo una forma más apto de valorar el rendimiento de un agente.

Una nueva récipe para los agentes de entrenamiento

OpenCua Framework presenta una tubería novedosa para procesar datos y capacitar a los agentes de uso de la computadora. El primer paso convierte las demostraciones humanas crudas en pares de batalla estatal limpia adecuados para capacitar a los modelos de jerigonza de visión (VLMS). Sin confiscación, los investigadores descubrieron que simplemente los modelos de entrenamiento en estos pares producen ganancias de rendimiento limitadas, incluso con grandes cantidades de datos.

OpenCUA Condena de pensamiento Fuente de tubería: Xlang Lab en HKU

La visión secreto era aumentar estas trayectorias con el razonamiento de la dependencia de pensamiento (COT). Este proceso genera un “monólogo interno” detallado para cada batalla, que incluye planificación, memoria y consejo. Este razonamiento estructurado se organiza en tres niveles: una observación de detención nivel de la pantalla, pensamientos reflexivos que analizan la situación y planifican los próximos pasos, y finalmente, la batalla concisa y ejecutable. Este enfoque ayuda al agente a desarrollar una comprensión más profunda de las tareas.

“Encontramos un razonamiento del jerigonza natural crucial para los modelos de saco de uso de computadoras generalizables, ayudando a los CUA a internalizar las capacidades cognitivas”, escriben los investigadores.

Esta tubería de síntesis de datos es un ámbito caudillo que las empresas pueden adaptar a los agentes de sus propias herramientas internas únicas. Según Wang, una empresa puede registrar demostraciones de sus flujos de trabajo patentados y usar la misma tubería de “reflector” y “dinamo” para crear los datos de capacitación necesarios. “Esto les permite provenir un agente de detención rendimiento adaptado a sus herramientas internas sin aprieto de trazar el razonamiento manual manualmente”, explicó.

Poner a prueba OpenCua

Los investigadores aplicaron el ámbito OpenCua para capacitar una variedad de VLM de código franco, incluidas variantes de Qwen y Kimi-VL, con tamaños de parámetros de 3 mil millones a 32 mil millones. Los modelos fueron evaluados en un conjunto de puntos de relato en tendencia y fuera de tendencia que prueban su capacidad para realizar tareas y comprender las GUI.

El maniquí de 32 mil millones de parámetros, OpenCua-32b, estableció una nueva tasa de éxito de última concepción entre los modelos de código franco en el punto de relato verificado por Osworld. Igualmente superó el CUA basado en GPT-4O de OpenAI y cerró significativamente la brecha de rendimiento con los principales modelos patentados de Anthrope.

OpenCua muestra una mejoramiento masiva sobre los modelos saco (izquierda) mientras compite con los modelos de CUA líder (derecha) Fuente: XLANG Lab en HKU

Para los desarrolladores empresariales y los líderes de productos, la investigación ofrece varios hallazgos secreto. El método OpenCua es ampliamente aplicable, mejorando el rendimiento en modelos con diferentes arquitecturas (tanto densas como de mezcla de expertos) y tamaños. Los agentes capacitados además muestran una robusto divulgación, funcionando adecuadamente en una amplia escala de tareas y sistemas operativos.

Según Wang, el ámbito es particularmente adecuado para automatizar flujos de trabajo empresariales repetitivos e intensivos en mano de obra. “Por ejemplo, en el conjunto de datos de AgentNet, ya capturamos algunas demostraciones de exhalar instancias EC2 en Amazon AWS y configurar los parámetros de anotación en MTurk”, dijo a VentureBeat. “Estas tareas involucran muchos pasos secuenciales pero siguen patrones repetibles”.

Sin confiscación, Wang señaló que cerrar la implementación de la brecha para estar requiere afrontar los desafíos secreto en torno a la seguridad y la confiabilidad. “El longevo desafío en el despliegue auténtico es la seguridad y la confiabilidad: el agente debe evitar errores que puedan alterar inadvertidamente la configuración del sistema o activar los bienes secundarios nocivos más allá de la tarea prevista”, dijo.

Los investigadores han publicado el código, conjunto de datosy mancuerna para sus modelos.

A medida que los agentes de código franco construidos en marcos como OpenCua se vuelven más capaces, podrían progresar fundamentalmente la relación entre los trabajadores del conocimiento y sus computadoras. Wang prevé un futuro donde la competencia en el software engorroso se vuelve menos importante que la capacidad de articular claramente los objetivos a un agente de IA.

Describió dos modos principales de trabajo: “Automatización fuera de tendencia, donde el agente aprovecha su conocimiento de software más amplio para seguir una tarea de extremo a extremo” y “colaboración en tendencia, donde el agente replica en tiempo auténtico y trabaja codo a codo con el humano, como un colega”. Básicamente, los humanos proporcionarán el “qué” táctico, mientras que los agentes de IA cada vez más sofisticados manejan el “cómo” activo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu director, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.