Fara-7B de Microsoft es un agente de IA para uso en computadora que rivaliza con GPT-4o y funciona directamente en su PC

Fara-7B de Microsoft es un agente de IA para uso en computadora que rivaliza con GPT-4o y funciona directamente en su PC

Microsoft ha presentado Fara-7B, un nuevo maniquí de 7 mil millones de parámetros diseñado para llevar a cabo como un agente de uso informático (CUA) capaz de realizar tareas complejas directamente en el dispositivo de un adjudicatario. Fara-7B establece nuevos resultados de vanguardia para su tamaño, proporcionando una forma de crear agentes de IA que no dependan de modelos masivos dependientes de la estrato y que puedan ejecutarse en sistemas compactos con pequeño latencia y longevo privacidad.

Si aceptablemente el maniquí es una traducción empírico, su construcción aborda una barrera principal para la apadrinamiento empresarial: la seguridad de los datos. Oportuno a que Fara-7B es lo suficientemente pequeño como para ejecutarse localmente, permite a los usuarios automatizar flujos de trabajo confidenciales, como la diligencia de cuentas internas o el procesamiento de datos confidenciales de la empresa, sin que esa información salga del dispositivo.

Cómo ve Fara-7B la web

Fara-7B está diseñado para navegar por interfaces de adjudicatario utilizando las mismas herramientas que utiliza un humano: un mouse y un teclado. El maniquí funciona percibiendo visualmente una página web a través de capturas de pantalla y prediciendo coordenadas específicas para acciones como hacer clic, escribir y desplazarse.

Fundamentalmente, Fara-7B no depende de "árboles de accesibilidad”, la estructura de código subyacente que los navegadores utilizan para describir páginas web a los lectores de pantalla. En cambio, se fundamento sólo en datos visuales a nivel de píxeles. Este enfoque permite al agente interactuar con sitios web incluso cuando el código subyacente está confuso o es complicado.

Según Yash Lara, líder senior de PM en Microsoft Research, procesar toda la información visual en el dispositivo crea verdaderas "soberanía de píxeles," ya que las capturas de pantalla y los razonamientos necesarios para la automatización permanecen en el dispositivo del adjudicatario. "Este enfoque ayuda a las organizaciones a cumplir requisitos estrictos en sectores regulados, incluidos HIPAA y GLBA." le dijo a VentureBeat en comentarios escritos.

En las pruebas de evaluación comparativa, este enfoque visual primero ha donado buenos resultados. En WebVoyagerun punto de narración habitual para agentes web, Fara-7B logró una tasa de éxito de tareas del 73,5%. Esto supera a los sistemas más grandes y que consumen más capital, incluidos GPT-4ocuando se le solicita que actúe como agente de uso de computadora (65,1%) y el maniquí nativo UI-TARS-1.5-7B (66,4%).

La eficiencia es otro diferenciador esencia. En pruebas comparativas, Fara-7B completó tareas en aproximadamente 16 pasos en promedio, en comparación con aproximadamente 41 pasos para el maniquí UI-TARS-1.5-7B.

Manejo de riesgos

Sin confiscación, la transición a agentes autónomos no está exenta de riesgos. Microsoft señala que Fara-7B comparte limitaciones comunes a otros modelos de IA, incluidas posibles alucinaciones, errores al seguir instrucciones complejas y degradación de la precisión en tareas complejas.

Para mitigar estos riesgos, el maniquí fue entrenado para explorar "Puntos críticos." Un Punto Crítico se define como cualquier situación que requiere los datos personales o el consentimiento de un adjudicatario ayer de que ocurra una hecho irreversible, como cursar un correo electrónico o completar una transacción financiera. Al durar a ese punto, Fara-7B está diseñado para hacer una pausa y solicitar explícitamente la aprobación del adjudicatario ayer de continuar.

Ejecutar esta interacción sin frustrar al adjudicatario es un desafío de diseño esencia. "Es esencia equilibrar salvaguardias sólidas, como los puntos críticos, con recorridos de adjudicatario fluidos." Dijo Lara. "Tener una interfaz de adjudicatario, como Magentic-UI de Microsoft Research, es esencial para desear a los usuarios la oportunidad de intervenir cuando sea necesario y, al mismo tiempo, ayudar a evitar la ahogo de aprobación." UI magnética es un prototipo de investigación diseñado específicamente para solucionar estas interacciones entre humanos y agentes. Fara-7B está diseñado para ejecutarse en Magentic-UI.

Destilando la complejidad en un solo maniquí

El expansión de Fara-7B pone de relieve una tendencia creciente en destilación del conocimientodonde las capacidades de un sistema complicado se comprimen en un maniquí más pequeño y más válido.

La creación de una CUA normalmente requiere cantidades masivas de datos de capacitación que muestren cómo navegar por la web. Compendiar estos datos mediante anotaciones humanas es prohibitivamente costoso. Para resolver esto, Microsoft utilizó una canalización de datos sintéticos basada en Magentic-Oneun entorno multiagente. En esta configuración, un "orquestador" El agente creó planes y dirigió una "Navegador web" agente para navegar por la web, generando 145.000 trayectorias de tareas exitosas.

Los investigadores entonces "destilado" Estos complejos datos de interacción en Fara-7B, que está construido sobre Qwen2.5-VL-7B, un maniquí colchoneta preferido por su larga ventana de contexto (hasta 128.000 tokens) y su gran capacidad para conectar instrucciones de texto con nociones visuales en una pantalla. Si aceptablemente la concepción de datos requirió un sistema pesado de múltiples agentes, Fara-7B en sí es un maniquí único, lo que demuestra que un maniquí pequeño puede educarse comportamientos avanzados de guisa efectiva sin requisito de andamios complejos en tiempo de ejecución.

El proceso de capacitación se basó en un ajuste supervisado, donde el maniquí aprende imitando los ejemplos exitosos generados por la canalización sintética.

Pensando en el futuro

Si aceptablemente la traducción presente se entrenó en conjuntos de datos estáticos, las iteraciones futuras se centrarán en hacer que el maniquí sea más inteligente, no necesariamente más alto. "En el futuro, nos esforzaremos por persistir el tamaño pequeño de nuestros modelos," Dijo Lara. "Nuestra investigación en curso se centra en hacer que los modelos agentes sean más inteligentes y seguros, no sólo más grandes." Esto incluye explorar técnicas como formación por refuerzo (RL) en entornos reales y aislados, lo que permitiría al maniquí educarse de prueba y error en tiempo auténtico.

Microsoft ha puesto el maniquí a disposición en Hugging Face y Microsoft Foundry bajo una inmoralidad del MIT. Sin confiscación, Lara advierte que si aceptablemente la inmoralidad permite el uso comercial, el maniquí aún no está sagaz para producción. "Puedes observar y crear prototipos autónomamente con Fara‑7B bajo la inmoralidad del MIT," él dice, "pero es más adecuado para pilotos y pruebas de concepto que para implementaciones de labor crítica."

Related Posts

Alianza de Campeones de fútbol: transmite Barcelona vs. Newcastle en vivo

Cuándo ver Barcelona vs Newcastle Miércoles a la 1:45 p. m. ET (10:45 a. m. PT). donde mirar Barcelona vs Newcastle se transmitirá en los EE. UU. por Paramount Plus.…

El posterior impulso para creadores de Meta viene con bonos de $3,000 por anunciar en Facebook

Detenme si has escuchado esto ayer: Meta tiene un nuevo software para atraer a los mejores creadores talentosos a Facebook y viene con fuertes pagos de descuento. La empresa está…

You Missed

Trump continúa presión sobre la Fed a horas de una nueva intrepidez

Trump continúa presión sobre la Fed a horas de una nueva intrepidez

El Servicio de Salubridad realizará viaje médica gratuita en Puerto Plata este 20 y 21 de marzo

El Servicio de Salubridad realizará viaje médica gratuita en Puerto Plata este 20 y 21 de marzo

Especialistas presentan en República Dominicana Multiflora Transit, una innovadora alternativa para mejorar el tránsito intestinal

Especialistas presentan en República Dominicana Multiflora Transit, una innovadora alternativa para mejorar el tránsito intestinal

Alianza de Campeones de fútbol: transmite Barcelona vs. Newcastle en vivo

Alianza de Campeones de fútbol: transmite Barcelona vs. Newcastle en vivo

Jóvenes se entregan tras incidente con Digesett que resultó herido

Jóvenes se entregan tras incidente con Digesett que resultó herido

Presidente Abinader concede condecoración póstuma al periodista Orlando Martínez Howley en la Orden del Mérito Duarte, Sánchez y Raja

Presidente Abinader concede condecoración póstuma al periodista Orlando Martínez Howley en la Orden del Mérito Duarte, Sánchez y Raja