Cuando el tirada de un maniquí de IA genera inmediatamente memes y tratados que declaran que el resto de la industria está cocido, sabes que tienes poco que vale la pena analizar.
El Gemini 3 de Google fue valiente el martes con gran fanfarria. La empresa llamado el maniquí una “nueva era de inteligencia”, integrándolo en la Búsqueda de Google desde el primer día por primera vez. Ha superado a OpenAI y los productos de otros competidores en una variedad de puntos de relato y está encabezando las listas de LMArena, una plataforma de evaluación de IA de colaboración colectiva que es esencialmente el ranking Billboard Hot 100 de modelos de IA. En el interior de las 24 horas posteriores a su tirada, más de un millón de usuarios probaron Gemini 3 en Google AI Studio y la API de Gemini, según Google. “Desde el punto de panorámica de la apadrinamiento del primer día, (es) lo mejor que hemos pasado en cualquiera de nuestros lanzamientos de modelos”, dijo Logan Kilpatrick de Google DeepMind, líder de producto para AI Studio de Google y la API Gemini. El borde.
Incluso el director ejecutor de OpenAI, Sam Altman, y el director ejecutor de xAI, Elon Musk, felicitaron públicamente al equipo de Gemini por un trabajo aceptablemente hecho. Y el director ejecutor de Salesforce, Marc Benioff escribió que posteriormente de usar ChatGPT todos los días durante tres abriles, tener lugar dos horas en Gemini 3 lo cambió todo: “Mierda… no voy a regresar. El brinco es una disparate: razonamiento, velocidad, imágenes, video… todo es más nítido y rápido. Se siente como si el mundo hubiera cambiado, otra vez”.
“Esto es más que un cambio en la tabla de clasificación”, afirmó Wei-Lin Chiang, cofundador y director de tecnología de LMArena. Chiang dijo El borde que Gemini 3 Pro tiene una “clara delantera” en categorías ocupacionales que incluyen codificación, coincidencia y escritura creativa, y sus capacidades de codificación agente “en muchos casos ahora superan a los mejores modelos de codificación como Claude 4.5 y GPT-5.1”. Incluso obtuvo el primer puesto en comprensión visual y fue el primer maniquí en pasar una puntuación de ~1500 en la clasificación de texto de la plataforma.
El desempeño del nuevo maniquí, dijo Chiang, “ilustra que la carrera armamentista de la IA está siendo moldeada por modelos que pueden razonar de forma más abstracta, extender de forma más consistente y ofrecer resultados confiables en un conjunto cada vez más diverso de evaluaciones del mundo positivo”.
Alex Conway, ingeniero de software principal de DataRobot, dijo El borde que uno de los avances más notables de Gemini 3 fue en un punto de relato de razonamiento específico llamado ARC-AGI-2. Gemini obtuvo casi el doble de puntuación que el GPT-5 Pro de OpenAI y al mismo tiempo funcionó a una décima parte del costo por tarea, dijo, lo que “verdaderamente desafía la principios de que estos modelos se están estancando”. Y en el punto de relato SimpleQA, que incluye preguntas y respuestas simples sobre una amplia tono de temas y requiere mucho conocimiento especializado, Gemini 3 Pro obtuvo una puntuación más del doble que el GPT-5.1 de OpenAI, señaló Conway. “Utilícelo por casos, será excelente para muchos más temas especializados y para profundizar en campos científicos y de investigación de última gestación”, dijo.
Pero las tablas de clasificación no lo son todo. Es posible (y tentador en el mundo de la IA de incorporación presión) entrenar un maniquí para puntos de relato estrechos en ocasión de éxito de propósito genérico. Entonces, para asimilar verdaderamente qué tan aceptablemente está funcionando un sistema, debe entregarse en manos en pruebas del mundo positivo, experiencias anecdóticas y casos de uso complejos en la naturaleza.
El borde Hablé con profesionales de todas las disciplinas que utilizan la IA todos los días para trabajar. El consenso: Gemini 3 parece impresionante y hace un gran trabajo en una amplia tono de tareas, pero cuando se manejo de casos extremos y aspectos específicos de ciertas industrias, muchos profesionales no reemplazarán sus modelos actuales con él en el corto plazo.
La mayoría de la masa El borde habló con el plan de continuar usando Claude de Anthropic para sus micción de codificación, a pesar de los avances de Gemini 3 en ese espacio. Algunos todavía dijeron que Gemini 3 no es perfecto en el frente de interacción del becario. Tim Dettmers, profesor asistente en la Universidad Carnegie Mellon y investigador investigador en Ai2, dijo que aunque es un “gran maniquí”, es un poco crudo cuando se manejo de UX, lo que significa que “no sigue las instrucciones con precisión”.
Tulsee Doshi, director senior de gobierno de productos de Google DeepMind para Gemini y Gen Media, dijo El borde que la empresa dio prioridad a padecer Gemini 3 a una variedad de productos de Google de una “forma muy positivo”. Cuando se le preguntó acerca de las preocupaciones sobre el seguimiento de instrucciones, dijo que ha sido útil ver “dónde la masa está abordando algunos de los puntos conflictivos”.
Incluso dijo que poliedro que el maniquí Pro es el primer tirada de la suite Gemini 3, los modelos posteriores ayudarán a “completar esa preocupación”.
Joel Hron, CTO de Thomson Reuters, dijo que la compañía tiene sus propios puntos de relato internos que ha desarrollado para clasificar tanto sus modelos internos como los públicos en las áreas que son más relevantes para su trabajo, como comparar dos documentos de hasta varios cientos de páginas, interpretar un documento extenso, comprender contratos legales y razonar en los espacios reglamentario y fiscal. Dijo que hasta ahora, Gemini 3 ha tenido un buen desempeño en todos ellos y es “un brinco significativo desde donde estaba Gemini 2.5”. Incluso supera a varios de los modelos de Anthropic y OpenAI en este momento en algunas de esas áreas.
Louis Blankemeier, cofundador y director ejecutor de Cognita, una startup de inteligencia químico en radiología, dijo que en términos de “números puros”, Gemini 3 es “súper emocionante”. Pero, dijo, “todavía necesitamos poco de tiempo para descubrir cuál es la utilidad de este maniquí en el mundo positivo”. Para dominios más generales, dijo Blankemeier, Gemini 3 es una sino, pero cuando jugó con él en radiología, tuvo problemas para identificar correctamente fracturas costales sutiles en las radiografías de tórax, así como condiciones poco comunes o raras. Él considera que la radiología es similar a los autos autónomos en muchos sentidos, con muchos casos extremos, por lo que un maniquí más nuevo y más potente puede no ser tan efectivo como uno más antiguo que ha sido perfeccionado y entrenado con datos personalizados a lo desprendido del tiempo. “El mundo positivo es mucho más difícil”, afirmó.
De forma similar, Matt Hoffman, director de IA de Longeye, una empresa que proporciona herramientas de IA para investigaciones policiales, ve prometedor el dinamo de imágenes Nano Cambur Pro con tecnología Gemini 3 Pro. Los generadores de imágenes permiten a Longeye crear conjuntos de datos sintéticos convincentes para realizar pruebas, lo que le permite apoyar seguros los datos de investigación reales y confidenciales. Pero aunque los puntos de relato son impresionantes, es posible que no se correspondan con los casos de uso reales de la empresa. “No estoy seguro de que Longeye pueda cambiar un maniquí que estamos usando en producción por Gemini 3 y ver mejoras inmediatas”, dijo.
Otras empresas todavía dicen que están entusiasmadas con Gemini, pero no necesariamente usándolo para reemplazar todo lo demás. Built, una startup de préstamos para la construcción, utiliza actualmente una combinación de modelos fundamentales de Google, Anthropic, OpenAI y otros para analizar las solicitudes de retiro de obras: un paquete de documentos que a menudo se envía a un prestamista de la construcción, como facturas y pruebas del trabajo realizado, solicitando que se paguen los fondos. Esto requiere un disección multimodal de texto e imágenes, encima de una gran ventana de contexto para que el agente principal delegue tareas a los demás, dijo el vicepresidente de ingeniería, Thomas Schlegel. El borde. Eso es parte de lo que Google promete con Gemini 3, por lo que la compañía está explorando actualmente cambiarlo por 2.5.
“En el pasado, hemos descubierto que Gemini es el mejor en tareas de uso múltiple, y 3 parece ser un gran paso delante en esa misma recta”, dijo Schlegel. “Es todo lo que amamos de Géminis con esteroides”. Pero todavía no cree que reemplace a todos los demás modelos, incluido Claude para tareas de codificación y productos OpenAI para razonamiento empresarial.
Para Tanmai Gopal, cofundador y CEO de la plataforma de agentes de IA PromptQL, el revuelo que ha causado Gemini 3 es válido, pero “definitivamente no es el final de mínimo” para los competidores de Google. Los modelos de IA son cada vez mejores y más baratos, y poliedro que tienen ciclos de tirada tan rápidos, “uno siempre está por delante del resto durante un período de tiempo”. (Por ejemplo, el día posteriormente del tirada de Gemini 3, OpenAI libertino GPT-5.1-Codex-Max, una aggiornamento de un maniquí de una semana de decrepitud, aparentemente para desafiar a Gemini 3 en algunos puntos de relato de codificación).
Gopal dijo que PromptQL todavía está trabajando en evaluaciones internas para lanzarse cómo cambiarán, si es que cambian, las opciones de maniquí del equipo, pero “los resultados iniciales no necesariamente muestran poco drásticamente mejor” que su línea flagrante. Dijo que su preferencia flagrante es Claude para gestación de código, ChatGPT para búsqueda web y GPT-5 Pro para “diluvio de ideas profunda”, pero puede incorporar Gemini 3 como maniquí predeterminado, ya que es “probablemente el mejor en su clase para tareas de consumo en creatividad, texto e imágenes”.
Y como prácticamente todos los modelos, Gemini 3 ha tenido momentos de lo que llamaré “síndrome de la mano robótica”: cuando un sistema de inteligencia químico hace poco arduo con gran éxito pero queda atónito delante la consulta más simple, similar a las manos robóticas de ayer que tenían problemas para agarrar una hojalata de refresco. El afamado investigador Andrej Karpathy, miembro fundador de OpenAI y exdirector de IA en Tesla, escribió en X, posteriormente de probar Gemini 3, dijo que “ayer tuvo una primera impresión positiva en personalidad, escritura, codificación de vibraciones, humor, etc., un potencial de conducción diario muy sólido, claramente un LLM de nivel 1”, pero señaló que el maniquí se negó a creerle cuando dijo que era 2025 y luego dijo que se había olvidado de activar la Búsqueda de Google. (Descubrió que en las primeras pruebas, es posible que le hubieran poliedro un maniquí con un mensaje de sistema obsoleto).
En El bordeSegún nuestra propia experiencia al probar Gemini 3, descubrimos que “funciona razonablemente aceptablemente, con salvedades”. Probablemente no permanecerá en la cima para siempre, pero es un inconfundible paso delante para la empresa.
“Estás en una especie de grupo de saltos de maniquí a maniquí, mes a mes, cuando aparece uno nuevo”, dijo Hron. “Pero lo que me llamó la atención del tirada de Google es que realiza mejoras sustanciales en muchas dimensiones de los modelos, por lo que no es que simplemente haya mejorado en codificación o simplemente mejoró en razonamiento… Verdaderamente, en todos los ámbitos, mejoró un poco”.






