Este nuevo maniquí de Google Gemini navega por Internet igual que tú: cómo funciona

gettyimages-2207967834

Fotografía de Javier Zayas/Momento vía Getty Images

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones secreto de ZDNET

  • El nuevo maniquí de IA de Google puede interactuar directamente con las interfaces de adjudicatario de los sitios web.
  • Se une a herramientas similares de OpenAI y Anthropic.
  • La empresa igualmente admitió sus debilidades, incluidas las alucinaciones.

Google DeepMind tiene debutó un nuevo maniquí de IA en una olfato previa pública que está diseñada para navegar en un navegador web tal como lo haría un humano.

Construido sobre Gemini 2.5 Pro, el nuevo maniquí Computer Use de la compañía puede ejecutar tareas como hacer clic, escribir y desplazarse directamente adentro de una página web.

Por otra parte: 5 razones por las que uso IA particular en mi escritorio, en ocupación de ChatGPT, Gemini o Claude

Los usuarios simplemente tienen que enviarle un mensaje en lengua natural, como por ejemplo: “Broa Wikipedia, busque ‘Atlántida’ y resuma la historia del mito en el pensamiento occidental”. El maniquí buscará de forma autónoma la URL y las capturas de pantalla del sitio solicitado para analizar la interfaz de adjudicatario en la que necesita realizar y realizará la tarea solicitada paso a paso, todo mientras describe su razonamiento y acciones en un cuadro de texto fácilmente visible para los usuarios. Igualmente puede objetar pidiendo confirmación si se le indica que realice una tarea delicada, como realizar una adquisición.

La olfato previa de Gemini 2.5 Computer Use sigue al impulso de modelos de navegación web similares de OpenAI y Anthropic. Google presentó previamente una extensión positivo de Chrome señal Project Mariner, que igualmente puede realizar en nombre de los usuarios adentro de las páginas web.

como funciona

Gemini 2.5 Computer Use ejecuta una función de tirabuzón iterativo que le permite nutrir un registro de todas sus acciones recientes adentro de una interfaz de adjudicatario particular y determinar su posterior obra en consecuencia. Entonces, cuantas más tareas realice adentro de un sitio en particular, más contexto tendrá y funcionará de forma más fluida.

Google publicó videos de demostración (acelerados 3 veces) que muestran al maniquí realizando de forma autónoma una puesta al día en un sitio de papeleo de relaciones con el cliente y reorganizando notas en la plataforma Jamboard de Google, que fue descontinuada a fines del año pasado.

Por otra parte: el Codex de ChatGPT acaba de acoger una gran puesta al día que lo hace más poderoso que nunca: novedades

Según un publicación de blog Publicado por Google el martes, el nuevo maniquí superó a herramientas similares de Anthropic y OpenAI en términos de precisión y latencia, y en “múltiples puntos de narración de control web y móvil”, incluido Online-Mind2Web, un situación de evaluación para probar el rendimiento de los agentes de navegación web.

como probarlo

El nuevo maniquí está destinado principalmente a navegadores web, pero igualmente muestra una “gran promesa” en dispositivos móviles, dijo Google. Está acondicionado ahora a través de la API Gemini en Google AI y a través de Vertex AI. A traducción de demostración Igualmente está acondicionado a través de Browserbase.

Consideraciones de seguridad

El nuevo maniquí igualmente viene con un conjunto de controles de seguridad, que Google dice que los desarrolladores pueden usar para evitar que realice acciones no deseadas como eludir CAPTCHA, comprometer la seguridad de los datos u obtener el control de dispositivos médicos. Por ejemplo, los desarrolladores pueden indicarle al maniquí que solicite la confirmación del adjudicatario ayer de realizar determinadas acciones específicas.

¿Quieres más historias sobre la IA? Regístrate en nuestra tabla de clasificación de IA hoja informativa.

La compañía igualmente señaló en la maleable del sistema del nuevo maniquí que “puede exhibir algunas de las limitaciones generales de los modelos básicos, ya que se basan en Gemini 2.5 Pro, como alucinaciones y limitaciones en torno a la comprensión causal, la deducción deducción compleja y el razonamiento contrafactual”.

Esas limitaciones se aplican a la mayoría de los modelos. A principios de esta semana, Anthropic publicó una nueva investigación que muestra que muchos modelos de IA fronterizos tendían a denunciar lo que interpretaban como información poco ética o ilegal en escenarios de prueba, incluso cuando la información supuestamente incriminatoria era en sinceridad inofensiva.


Related Posts

Según los informes, Meta despedirá hasta el 20 por ciento de su personal

De acuerdo a ReutersMeta búsqueda compensar el pago en inteligencia industrial y centros de datos con una ronda masiva de despidos. Fuentes familiarizadas con el asunto dicen que la empresa…

El editor del sitio de juegos hace jailbreak a un Amazon Echo Show

“Algunos desarrolladores encontraron una modo, por ahora, de convertir algunos de estos dispositivos cada vez más mediocres de Amazon Show en computadoras abiertas, bártulos y amigables”. escribe el cofundador del…

You Missed

Familiares reportan desaparecido a hombre en Santo Domingo Ideal

Familiares reportan desaparecido a hombre en Santo Domingo Ideal

CUBA: Manifestantes atacan la sede del Partido Comunista | AlMomento.net

CUBA: Manifestantes atacan la sede del Partido Comunista | AlMomento.net

Según los informes, Meta despedirá hasta el 20 por ciento de su personal

Según los informes, Meta despedirá hasta el 20 por ciento de su personal

Tinder incorpora más IA a la aplicación para crear ‘matches’ «más personalizados»

Tinder incorpora más IA a la aplicación para crear ‘matches’ «más personalizados»

Abinader reafirma compromiso con la educación y pubescencia RD | AlMomento.net

Abinader reafirma compromiso con la educación y pubescencia RD | AlMomento.net

Carmen Ligia Barceló realiza panel “Mujeres Imparables” en Hato Veterano

Carmen Ligia Barceló realiza panel “Mujeres Imparables” en Hato Veterano