
A pesar de tener sólo 3 mil millones de parámetros, Ferret-UI Lite iguala o supera el rendimiento de remisión de modelos hasta 24 veces más grandes. Aquí están los detalles.
Un poco de historia sobre Ferret
En diciembre de 2023, un equipo de 9 investigadores publicó un estudio llamado “FERRET: Consulte y conecte a tierra cualquier cosa en cualquier zona y con cualquier granularidadEn él, presentaron un maniquí de habla ínclito multimodal (MLLM) que era capaz de comprender referencias en habla natural a partes específicas de una imagen:

Desde entonces, Apple ha publicado una serie de artículos de seguimiento que amplían la comunidad de modelos Ferret, incluidos hurónv2, Hurón-UIy Hurón-UI 2.
Específicamente, Hurón-UI Las variantes ampliaron las capacidades originales de FERRET y fueron entrenadas para aventajar lo que los investigadores definieron como una deficiencia de los MLLM de dominio militar.
Del flamante Papel de interfaz de legatario de hurón:
Los avances recientes en los modelos de lenguajes grandes multimodales (MLLM) han sido dignos de mención; sin secuestro, estos MLLM de dominio militar a menudo no alcanzan su capacidad para comprender e interactuar de guisa efectiva con las pantallas de la interfaz de legatario (UI). En este artículo, presentamos Ferret-UI, un nuevo MLLM diseñado para mejorar la comprensión de las pantallas de UI móviles, equipado con capacidades de remisión, conexión a tierra y razonamiento. Regalado que las pantallas de interfaz de legatario suelen exhibir una relación de aspecto más alargada y contienen objetos de interés más pequeños (por ejemplo, íconos, textos) que las imágenes naturales, incorporamos “cualquier resolución” encima de Ferret para honrar los detalles y explotar características visuales mejoradas.

Hace unos días Apple amplió aún más la comunidad de modelos Ferret-UI, con un estudio llamado Ferret-UI Lite: Lecciones de la creación de pequeños agentes GUI en dispositivos.
Ferret-UI se creó sobre un maniquí de parámetros 13B, que se centró principalmente en la comprensión de la interfaz de legatario móvil y capturas de pantalla de resolución fija. Mientras tanto, Ferret-UI 2 amplió el sistema para tolerar múltiples plataformas y una percepción de viejo resolución.
Por el contrario, Ferret-UI Lite es un maniquí mucho más desvergonzado, diseñado para ejecutarse en el dispositivo, sin dejar de ser competitivo con agentes GUI significativamente más grandes.
Hurón-UI Lite
Según los investigadores del nuevo artículo, “la mayoría de los métodos existentes de agentes GUI (…) se centran en grandes modelos básicos”. Esto se debe a que “las sólidas capacidades de razonamiento y planificación de los grandes modelos del costado del servidor permiten que estos sistemas agentes alcancen capacidades impresionantes en diversas tareas de navegación GUI”.
Señalan que si correctamente ha habido muchos avances en los sistemas GUI de múltiples agentes y de extremo a extremo, que adoptan diferentes enfoques para impulsar las muchas tareas que implican la interacción agente con las GUI (“conexión a tierra de GUI de bajo nivel, comprensión de la pantalla, planificación de múltiples pasos y autorreflexión”), son básicamente demasiado grandes y requieren mucha computación para funcionar correctamente en el dispositivo.
Entonces, se propusieron desarrollar Ferret-UI Lite, una cambio de Ferret-UI de 3 mil millones de parámetros, que “está construida con varios componentes secreto, guiados por conocimientos sobre el entrenamiento de modelos de habla a pequeña escalera”.
Ferret-UI Lite aprovecha:
- Datos de entrenamiento reales y sintéticos de múltiples dominios GUI;
- Técnicas de retazo y acercamiento sobre la marcha (o en tiempo de inferencia) para comprender mejor segmentos específicos de la GUI;
- Técnicas de estudios supervisadas de ajuste y refuerzo.
El resultado es un maniquí que se acerca mucho o incluso supera a los modelos de agentes GUI de la competencia que son hasta 24 veces su número de parámetros.

Si correctamente toda la obra (que se detalla minuciosamente en el estudio) es interesante, las técnicas de retazo y acercamiento en tiempo auténtico son particularmente notables.
El maniquí hace una predicción original, recorta a su cerca de y luego vuelve a predecir en esa región recortada. Esto ayuda a que un maniquí tan pequeño compense su capacidad limitada para procesar una gran cantidad de tokens de imágenes.

Otra contribución sobresaliente del artículo es cómo Ferret-UI Lite básicamente genera sus propios datos de entrenamiento. Los investigadores construyeron un sistema multiagente que interactúa directamente con plataformas GUI en vivo para producir ejemplos de entrenamiento sintéticos a escalera.
Hay un magneto de tareas curriculares que propone metas de dificultad creciente, un agente de planificación las divide en pasos, un agente de colchoneta las ejecuta en pantalla y un maniquí crítico evalúa los resultados.

Con este proceso, el sistema de capacitación captura la confusión de la interacción del mundo auténtico (como errores, estados inesperados y estrategias de recuperación), poco que sería mucho más difícil de obtener si se dependiera de datos limpios y anotados por humanos.
Curiosamente, mientras Ferret-UI y Ferret-UI 2 utilizaron capturas de pantalla de iPhone y otras interfaces de Apple en sus evaluaciones, Ferret-UI Lite fue entrenado y evaluado en entornos GUI de Android, web y de escritorio, utilizando puntos de remisión como AndroidWorld y OSWorld.
Los investigadores no señalan explícitamente por qué eligieron esta ruta para Ferret-UI Lite, pero probablemente refleja dónde están disponibles hoy en día los bancos de pruebas de agentes GUI reproducibles y a gran escalera.
Sea como fuere, los investigadores descubrieron que, si correctamente Ferret-UI Lite funcionó correctamente en tareas de bajo nivel y de horizonte corto, no funcionó tan correctamente en interacciones más complicadas de varios pasos, una compensación que se esperaría en gran medida, dadas las limitaciones de un maniquí pequeño en el dispositivo.
Por otro costado, Ferret-UI Lite ofrece un agente específico y, por extensión, privado (ya que no es necesario que los datos vayan a la estrato y se procesen en servidores remotos) que interactúa de forma autónoma con las interfaces de las aplicaciones en función de las solicitudes de los usuarios, lo cual, según todas las cuentas, es harto bueno.
Para obtener más información sobre el estudio, incluidos los desgloses y resultados de los puntos de remisión, sigue este enlace.
Ofertas de accesorios en Amazon







