La IA de Google ahora puede navegar por la web, hacer clic en ordenanza y completar formularios con Gemini 2.5 Computer Use

La IA de Google ahora puede navegar por la web, hacer clic en ordenanza y completar formularios con Gemini 2.5 Computer Use

Algunos de los mayores proveedores de modelos de lenguajes grandes (LLM, por sus siglas en inglés) han tratado de ir más allá de los chatbots multimodales, extendiendo sus modelos a "agentes" que en ingenuidad pueden tomar más acciones en nombre del sucesor en todos los sitios web. Recuerde el agente ChatGPT de OpenAI (anteriormente conocido como "Cámara") y Computer Use de Anthropic, entreambos lanzados en los últimos dos primaveras.

Ahora, Google todavía se está metiendo en el mismo serie. Hoy en día, el gigantesco de las búsquedas La filial del laboratorio DeepMind AI presentó una traducción nueva, ajustada y personalizada de su potente Gemini 2.5 Pro LLM conocido como "Uso de la computadora Gemini 2.5 Pro," que puede utilizar un navegador potencial para navegar por la web en su nombre, recuperar información, completar formularios e incluso realizar acciones en sitios web — todo desde un único mensaje de texto del sucesor.

"Estos son los primeros días, pero la capacidad del maniquí para interactuar con la web (como desplazarse, completar formularios y navegar por menús desplegables) es una preeminencia. próximo paso importante en la creación de agentes de uso genérico," dicho Sundar Pichai, director ejecutante de Google, como parte de un Revelación más larga en la red social, X.

Sin retención, el maniquí no está habitable para los consumidores directamente desde Google.

En cambio, Google asociado con otra empresa, Colchoneta del navegadorfundado por Paul Klein, ex ingeniero de Twilio, a principios de 2024que ofrece virtuales "sin comienzo" Navegador web específicamente para uso de agentes y aplicaciones de IA. (A "sin comienzo" navegador es aquel que no requiere una interfaz gráfica de sucesor, o GUI, para navegar por la web, aunque en este caso y en otros, Browserbase muestra una representación gráfica para el sucesor).

Los usuarios pueden realizar una demostración del nuevo maniquí Gemini 2.5 Computer Use directamente en Browserbase aquí e incluso compararlo flanco a flanco con las ofertas rivales más antiguas de OpenAI y Anthropic en un nuevo "Arena del navegador" arrojado por la startup (aunque solo se puede escoger un maniquí adicional próximo con Gemini a la vez).

Para los creadores y desarrolladores de IA, se está creando como un LLM en bruto, aunque patentado. a través del API de Géminis en Google AI Studio para creación rápida de prototiposy Google Cloud IA de vértice selector de modelos y plataforma de creación de aplicaciones.

La nueva ofrecimiento se fundamento en las capacidades de Géminis 2.5 Proarrojado en marzo de 2025, pero que se ha actualizado significativamente varias veces desde entonces, con un enfoque específico en permitir que los agentes de IA realicen interacciones directas con interfaces de sucesor, incluidos navegadores y aplicaciones móviles.

En genérico, parece Gemini 2.5 Computer Use está diseñado para permitir a los desarrolladores crear agentes que puedan completar tareas controladas por la interfaz de forma autónoma, como hacer clic, escribir, desplazarse, completar formularios y navegar detrás de las pantallas de inicio de sesión.

En motivo de servir nada más de API o entradas estructuradas, este maniquí permite que los sistemas de IA interactúen con el software de forma visual y utilitario, como lo haría un humano.

Breves pruebas prácticas de sucesor

En mis breves y poco científicas pruebas prácticas iniciales en el sitio web de Browserbase, Gemini 2.5 Computer Use navegó con éxito hasta el sitio web oficial de Taylor Swift según las instrucciones y me proporcionó un sinopsis de lo que se vendía o promocionaba en la parte superior: una estampación exclusivo de su disco más flamante, "La vida de una corista."

En otra prueba, le pedí a Gemini 2.5 Computer Use que buscara en Amazon luces solares en gran medida calificadas y con buenas reseñas que pudiera colocar en mi patio trasero, y me encantó ver cómo completaba con éxito un Captcha de búsqueda de Google diseñado para eliminar usuarios no humanos ("Selecciona todas las casillas con una moto.") Lo hizo en cuestión de segundos.

Sin retención, una vez que llegó allí, se detuvo y no pudo completar la tarea, a pesar de activo cometido un error. "tarea competida" mensaje.

Igualmente debo señalar aquí que, si perfectamente el agente ChatGPT de OpenAI y Claude de Anthropic puede crear y editar archivos locales, como presentaciones de PowerPoint, hojas de cálculo o documentos de texto, en nombre del sucesor, Gemini 2.5 Computer Use actualmente no ofrece paso directo al sistema de archivos ni capacidades de creación de archivos nativos.

En cambio, está diseñado para controlar y navegar por las interfaces de sucesor web y móviles mediante acciones como hacer clic, escribir y desplazarse. Su resultado se limita a acciones de interfaz de sucesor sugeridas o respuestas de texto estilo chatbot; El desarrollador debe manejar por separado cualquier resultado estructurado, como un documento o archivo, a menudo mediante código personalizado o integraciones de terceros.

Puntos de remisión de rendimiento

Google dice que Gemini 2.5 Computer Use ha demostrado resultados líderes en múltiples puntos de remisión de control de interfaz, particularmente en comparación con otros sistemas de inteligencia industrial importantes, incluidos Claude Sonnet y los modelos basados ​​​​en agentes de OpenAI.

Las evaluaciones se realizaron a través de Browserbase y las propias pruebas de Google.

Algunos aspectos destacados incluyen:

  • Online-Mind2Web (saco del navegador): 65,7% para Gemini 2.5 frente a 61,0% (Claude Sonnet 4) y 44,3% (OpenAI Agent)

  • WebVoyager (saco del navegador): 79,9% para Gemini 2.5 frente a 69,4% (Claude Sonnet 4) y 61,0% (OpenAI Agent)

  • AndroidWorld (mente profunda): 69,7% para Géminis 2,5 frente a 62,1% (Claude Sonnet 4); El maniquí de OpenAI no se pudo evaluar por errata de paso

  • OSMundo: Actualmente no es compatible con Gemini 2.5; El resultado del principal competidor fue del 61,4%.

Adicionalmente de una gran precisión, Google informa que el maniquí opera con una latencia más depreciación que otras soluciones de control de navegador, un negociador secreto en casos de uso de producción como la automatización y las pruebas de la interfaz de sucesor.

Cómo funciona

Los agentes impulsados ​​por el maniquí de uso de computadoras operan adentro de un caracolillo de interacción. Reciben:

  • Un mensaje de tarea de sucesor

  • Una captura de pantalla de la interfaz.

  • Una historia de acciones pasadas.

El maniquí analiza esta entrada y produce una obra de interfaz de sucesor recomendada, como hacer clic en un rama o escribir en un campo.

Si es necesario, puede solicitar confirmación al sucesor final para tareas más riesgosas, como realizar una negocio.

Una vez que se ejecuta la obra, el estado de la interfaz se actualiza y se envía una nueva captura de pantalla al maniquí. El ciclo continúa hasta que la tarea se completa o se detiene correcto a un error o una valentía de seguridad.

El maniquí utiliza una aparejo especializada convocatoria computer_usey se puede integrar en entornos personalizados utilizando herramientas como Dramaturgo o a través del Colchoneta del navegador caja de arena de demostración.

Casos de uso y apadrinamiento

Según Google, los equipos internos y externos ya han comenzado a utilizar el maniquí en varios dominios:

  • El equipo de la plataforma de pagos de Google informa que Gemini 2.5 Computer Use recupera con éxito más del 60% de las ejecuciones de pruebas fallidas, lo que reduce una fuente importante de ineficiencias de ingeniería.

  • se preocupauna plataforma de agentes de inteligencia industrial de terceros, dijo que el maniquí superó a otros en tareas complejas de exploración de datos, aumentando el rendimiento hasta en un 18% en sus evaluaciones más difíciles.

  • Poke.comun proveedor proactivo de asistentes de IA, señaló que el maniquí Gemini a menudo opera 50% más rápido que las soluciones de la competencia durante las interacciones de la interfaz.

El maniquí todavía se está utilizando en los propios esfuerzos de exposición de productos de Google, incluso en Plan Marineroel Agente de prueba de Firebasey Modo IA en búsqueda.

Medidas de seguridad

Correcto a que este maniquí controla directamente las interfaces de software, Google enfatiza un enfoque de seguridad de múltiples capas:

  • A servicio de seguridad por paso inspecciona cada obra propuesta antiguamente de su ejecución.

  • Los desarrolladores pueden puntualizar instrucciones a nivel de sistema para incomunicar o requerir confirmación para acciones específicas.

  • El maniquí incluye salvaguardas integradas para evitar acciones que puedan comprometer la seguridad o violar las políticas de uso prohibido de Google.

Por ejemplo, si el maniquí encuentra un CAPTCHA, generará una obra para hacer clic en la casilla de demostración, pero la marcará como que requiere confirmación del sucesor, lo que garantiza que el sistema no funcione sin supervisión humana.

Capacidades técnicas

El maniquí admite una amplia gradación de acciones de interfaz de sucesor integradas, como:

  • click_at, type_text_at, scroll_document, drag_and_dropy más

  • Se pueden juntar funciones definidas por el sucesor para ampliar su magnitud a entornos móviles o personalizados.

  • Las coordenadas de la pantalla se normalizan (escalera de 0 a 1000) y se traducen nuevamente a dimensiones en píxeles durante la ejecución.

se acepta imagen y texto entradas y panorama respuestas de texto o llamadas a funciones para realizar tareas. La resolución de pantalla recomendada para obtener resultados óptimos es 1440×900aunque puede funcionar con otros tamaños.

El precio de la API sigue siendo casi idéntico al de Gemini 2.5 Pro

El precio de Uso de la computadora Géminis 2.5 Se alinea estrechamente con el maniquí típico Gemini 2.5 Pro. Los dos siguen la misma estructura de facturación por token: los tokens de entrada tienen un precio de 1,25 dólares por millón de tokens para mensajes de menos de 200.000 tokens, y 2,50 dólares por millón de tokens para mensajes más largos que eso.

Los tokens de salida siguen una división similar, con un precio de $10.00 por millón para respuestas más pequeñas y $15.00 para los más grandes.

Donde los modelos divergen es en la disponibilidad y las características adicionales.

Gemini 2.5 Pro incluye un nivel tirado que permite a los desarrolladores usar el maniquí sin costo, sin un confín de token evidente publicado, aunque el uso puede estar sujeto a límites de velocidad o restricciones de cuota según la plataforma (por ejemplo, Google AI Studio).

Este paso tirado incluye tokens de entrada y salida. Una vez que los desarrolladores exceden su cuota asignada o cambian al nivel suscripción, se aplica el precio típico por token.

En contraste, Gemini 2.5 Computer Use está habitable exclusivamente a través del nivel suscripción. Hay sin paso tirado Se ofrece actualmente para este maniquí, y todo uso genera cargos basados ​​en tokens desde el principio.

En cuanto a las funciones, Gemini 2.5 Pro admite capacidades opcionales como el almacenamiento en elegancia de contexto (desde $ 0,31 por millón de tokens) y conexión a tierra con la Búsqueda de Google (arbitrario para hasta 1500 solicitudes por día, luego $ 35 por 1000 solicitudes adicionales). Estos no están disponibles para uso informático en este momento.

Otra distinción está en el manejo de datos: los resultados del maniquí de uso de computadoras no se utilizan para mejorar los productos de Google en el nivel suscripción, mientras que el uso tirado de Gemini 2.5 Pro contribuye a la alivio del maniquí a menos que se opte explícitamente por no participar.

En genérico, los desarrolladores pueden esperar costos similares basados ​​en tokens en entreambos modelos, pero deben considerar el paso a niveles, las capacidades incluidas y las políticas de uso de datos al animarse qué maniquí se adapta a sus evacuación.

Related Posts

Cómo activar el modo de reparación en su teléfono Android y por qué es fundamental hacerlo

Elyse Betters Picaro / ZDNET Siga ZDNET: Agréganos como fuente preferida en Google. Conclusiones esencia de ZDNET Android incluye un modo específico específico para reparaciones. Este modo está acondicionado para…

No busque ofertas de rebajas de primavera. Les enviaremos un mensaje de texto directamente

Parece que hace poco hay una nueva gran ofrecimiento todos los días, especialmente con la Gran Liquidación de Primavera de Amazon a la revés de la cumbre. Pero recorrerlos todos…

You Missed

Arnold Schwarzenegger regresará…como Conan el Brutal

Arnold Schwarzenegger regresará…como Conan el Brutal

Cuerpo de Bomberos reconoce a la Asociación de Ganaderos de la provincia Duarte por sus 50 primaveras de aportes al sector agropecuario

Cuerpo de Bomberos reconoce a la Asociación de Ganaderos de la provincia Duarte por sus 50 primaveras de aportes al sector agropecuario

República Dominicana presenta plan para atraer inversión extranjera en el sector tecnológico

República Dominicana presenta plan para atraer inversión extranjera en el sector tecnológico

‘El error peligroso de Trump con Irán’ – Remolacha

‘El error peligroso de Trump con Irán’ – Remolacha

Estudio: 72 % de los dominicanos ha utilizado inteligencia fabricado – Remolacha

Estudio: 72 % de los dominicanos ha utilizado inteligencia fabricado – Remolacha

Cómo activar el modo de reparación en su teléfono Android y por qué es fundamental hacerlo

Cómo activar el modo de reparación en su teléfono Android y por qué es fundamental hacerlo