
El maniquí de IA más caro de Google parece acaecer cruzado un hito importante: pasar un videojuego de 29 primaveras.
Anoche, el CEO de Google, Sundar Pichai publicado triunfante en x“¡Qué consumido! ¡Géminis 2.5 Pro acaba de completar Pokémon Blue!”
Ser claro, el Géminis toca Pokémon en vivo fue creado por (en sus propias palabras) “un ingeniero de software de 30 primaveras no afiliado con Google” que pasa Joel Z. Pero los ejecutivos de Google han estado animando el esfuerzo.
Por ejemplo, Logan Kilpatrick, el líder del producto para Google AI Studio, Publicado el mes pasado que Géminis estaba “haciendo un gran progreso al completar Pokémon” y había “yeguada su villa insignia (el próximo mejor maniquí solo tiene 3 hasta ahora, aunque con un arnés de agente diferente)”, llevando a Pichai a broma“Estamos trabajando en API, inteligencia fabricado de Pokémon :)”
¿Por qué Pokémon? En febrero, Progreso antrópico destacado Que sus modelos Claude AI estaban haciendo en “Pokémon Red”, escribiendo que el “pensamiento extendido y el entrenamiento de agentes” de Claude le da “un impulso importante” en tareas “más inesperadas”, como retar un encaje clásico. (“Pokémon Red” y “Blue” son diferentes versiones de un título de Gameboy Atrevido por primera vez en 1996 y empatado con la larga franquicia Pokémon). Hay incluso Un Claude reproduce el canal Pokemon Twitch que Joel Z citó como una inspiración.
A pesar de su progreso, Claude no parece acaecer vencido a “Pokémon Red” todavía. ¿Eso significa que Géminis es objetivamente mejor en el encaje? En su página de Twitch, Joel Z instó a los espectadores: “Por beneficio, no considere esto un punto de narración de qué tan proporcionadamente un LLM puede retar Pokemon. Positivamente no se puede hacer comparaciones directas: Gemini y Claude tienen herramientas diferentes y reciben información diferente”.
Y entreambos modelos de IA necesitan ayuda para retar el encaje, ahí es donde los arreos de agente antiguamente mencionado Entra, proporcionando a los modelos capturas de pantalla superpuestas con información adicional, permitiendo que el maniquí decida cómo objetar (lo que puede implicar emplazar a agentes especializados) y luego presionar el cogollo que corresponde con la instrucción de la IA.
Evento de TechCrunch
Berkeley, CA
|
5 de junio
Reservar ahora
Joel Z reconoció que había otras “intervenciones de mejora” para ayudar a Gemini a completar el encaje, pero insistió en que no es trampa.
“Mis intervenciones mejoran las habilidades generales de toma de decisiones y razonamiento de Géminis”, dice. “No doy sugerencias específicas: no hay tutoriales o instrucciones directas para desafíos particulares como el monte Moon. Lo único que incluso se acerca es hacer que Gemini sepa que necesita departir con un cohete ronquido dos veces para obtener la espita de elevación, que fue un error que luego se fijó en Pokemon Yellow”.
Encima, dijo: “Géminis juega a Pokémon todavía se está desarrollando activamente, y el situación continúa evolucionando”.