
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Google ha arrojado Géminis 2.5 Flashuna modernización importante a su raya de IA que brinda a las empresas y desarrolladores un control sin precedentes sobre cuánto “pensar” su IA realiza. El nuevo maniquí, arrojado hoy en Perspectiva previa a través de Google para estudiar y Vertex airepresenta un esfuerzo decisivo para ofrecer capacidades de razonamiento mejoradas al tiempo que mantiene los precios competitivos en el mercado de IA cada vez más satisfecho de clan.
El maniquí presenta lo que Google claridad un “Presupuesto de pensamiento” – Un mecanismo que permite a los desarrolladores especificar cuánto poder computacional debe asignarse al razonamiento a través de problemas complejos antaño de producir una respuesta. Este enfoque tiene como objetivo atracar una tensión fundamental en el mercado de IA contemporáneo: el razonamiento más sofisticado generalmente tiene costo de una anciano latencia y precios.
“Sabemos que el costo y la latencia son importantes para una serie de casos de uso de desarrolladores, por lo que queremos ofrecer a los desarrolladores la flexibilidad para adaptar la cantidad de pensamiento que hace el maniquí, dependiendo de sus evacuación”, dijo Tulsee Doshi, directora de productos de los modelos de Gemini en Google Deepmind, en una entrevista monopolio con VentureBeat.
Esta flexibilidad revela el enfoque pragmático de Google para la implementación de la IA a medida que la tecnología se integra cada vez más en aplicaciones comerciales donde la previsibilidad de costos es esencial. Al permitir que la capacidad de pensamiento se encienda o desactive, Google ha creado lo que claridad su “primer maniquí de razonamiento totalmente híbrido”.
Pague solo por la capacidad intelectual que necesita: adentro del nuevo maniquí de precios de IA de Google
La nueva estructura de precios resalta el costo del razonamiento en los sistemas de IA actuales. Al usar Géminis 2.5 Flashlos desarrolladores pagan $ 0.15 por millón de tokens por aportes. Los costos de producción varían dramáticamente en función de la configuración de razonamiento: $ 0.60 por millón de tokens con el pensamiento desactivado, saltando a $ 3.50 por millón de tokens con razonamiento preparado.
Esta diferencia de precio de casi seis veces para las expectativas razonadas refleja la intensidad computacional del proceso de “pensamiento”, donde el maniquí evalúa múltiples rutas y consideraciones potenciales antaño de producir una respuesta.
“Los clientes pagan por cualquier tokens de pensamiento y producción que genera el maniquí”, dijo Doshi a VentureBeat. “En AI Studio UX, puede ver estos pensamientos antaño de una respuesta. En la API, actualmente no proporcionamos entrada a los pensamientos, pero un desarrollador puede ver cuántas fichas se generaron”.
El presupuesto de pensamiento se puede ajustar de 0 a 24,576 tokens, operando como un margen mayor en zona de una asignación fija. Según Google, el maniquí determina de guisa inteligente cuánto de este presupuesto utilizar en función de la complejidad de la tarea, no es necesario preservar los medios cuando el razonamiento esmerado no es necesario.
Cómo Gemini 2.5 Flash se acumula: resultados de narración contra los principales modelos de IA
Reclamos de Google Géminis 2.5 Flash Demuestra un rendimiento competitivo en los puntos de narración secreto mientras mantiene un tamaño de maniquí más pequeño que las alternativas. En El postrero examen de la humanidaduna prueba rigurosa diseñada para evaluar el razonamiento y el conocimiento, 2.5 flash obtuvo un 12.1%, superando a los antrópicos Claude 3.7 soneto (8.9%) y Deepseek r1 (8.6%), aunque no se lanzó recientemente O4-Mini (14.3%).
El maniquí todavía publicó resultados sólidos en puntos de narración técnicos como Diamante gpqa (78.3%) y Exámenes de matemáticas de AIME (78.0% en las pruebas de 2025 y 88.0% en las pruebas de 2024).
“Las empresas deben nominar 2.5 flash porque proporciona el mejor valía para su costo y velocidad”, dijo Doshi. “Es particularmente esforzado en relación con los competidores en matemáticas, razonamiento multimodal, contexto abundante y varias otras métricas secreto”.
Los analistas de la industria señalan que estos puntos de narración indican que Google está reduciendo la brecha de rendimiento con los competidores al tiempo que mantiene una superioridad de precios, una logística que puede resonar con los clientes empresariales que observan sus presupuestos de IA.
Smart vs. Speedy: ¿Cuándo necesita pensar profundamente tu IA?
La presentación del razonamiento ajustable representa una desarrollo significativa en cómo las empresas pueden implementar IA. Con los modelos tradicionales, los usuarios tienen poca visibilidad o control sobre el proceso de razonamiento interno del maniquí.
El enfoque de Google permite a los desarrolladores optimizar para diferentes escenarios. Para consultas simples como la traducción del idioma o la recuperación de información básica, el pensamiento se puede deshabilitar para una máxima eficiencia de rentabilidad. Para tareas complejas que requieren un razonamiento de varios pasos, como la resolución matemática de problemas o el examen matizado, la función de pensamiento puede habilitarse y ajustarse.
Una innovación secreto es la capacidad del maniquí para determinar cuánto razonamiento es apropiado en función de la consulta. Google ilustra esto con ejemplos: una pregunta simple como “¿Cuántas provincias tiene Canadá?” requiere un razonamiento reducido, mientras que una pregunta compleja de ingeniería sobre los cálculos de estrés del haz involucraría automáticamente procesos de pensamiento más profundos.
“La integración de las capacidades de pensamiento en nuestros modelos Gemini de raya principal, combinada con mejoras en todos los ámbitos, ha llevado a respuestas de anciano calidad”, dijo Doshi. “Estas mejoras son ciertas en todos los puntos de narración académicos, incluido SimpleQA, que mide la fáctica”.
Semana de IA de Google: entrada regalado a los estudiantes y gestación de videos se unen al impulso de 2.5 Flash
El impulso de Géminis 2.5 Flash Viene durante una semana de movimientos agresivos de Google en el espacio de IA. El lunes, la compañía se implementó Veo 2 Capacidades de gestación de videos a los suscriptores avanzados de Gemini, lo que permite a los usuarios crear videoclips de ocho segundos a partir de indicaciones de texto. Hoy, unido con el anuncio de 2.5 flash, Google reveló que Todos los estudiantes universitarios de EE. UU. Recibirán entrada regalado a Gemini renovador hasta la primavera de 2026 – Un movimiento interpretado por los analistas como un esfuerzo para desarrollar observancia entre los futuros trabajadores del conocimiento.
Estos anuncios reflejan la logística múltiple de Google para competir en un mercado dominado por ChatGPT de OpenAi, que, según los informes, ve a más de 800 millones de usuarios semanales en comparación con el estimado de Gemini 250-275 millones de usuarios mensualessegún examen de terceros.
El maniquí Flash 2.5, con su enfoque visible en la eficiencia de rentabilidad y la personalización del rendimiento, parece diseñado para atraer particularmente a los clientes empresariales que necesitan establecer cuidadosamente los costos de implementación de la IA al tiempo que acceden a capacidades avanzadas.
“Estamos muy emocionados de comenzar a acoger comentarios de los desarrolladores sobre lo que están construyendo con Gemini Flash 2.5 y cómo están usando presupuestos de pensamiento”, dijo Doshi.
Más allá de la panorama previa: lo que las empresas pueden esperar a medida que madura Gemini 2.5 Flash
Si correctamente este impulso está en panorama previa, el maniquí ya está arreglado para que los desarrolladores comiencen a construir, aunque Google no ha especificado una raya de tiempo para la disponibilidad común. La compañía indica que continuará refinando las capacidades de pensamiento dinámico basados en la feedback del desarrollador durante esta etapa de panorama previa.
Para los adoptantes de IA Enterprise, este impulso representa una oportunidad para sufrir con enfoques más matizados para el despliegue de IA, lo que potencialmente asigna más medios computacionales a tareas de stop peligro mientras conserva los costos en aplicaciones de rutina.
El maniquí todavía está arreglado para los consumidores a través del Aplicación Géminisdonde aparece como “2.5 flash (real)” en el menú desplegable del maniquí, reemplazando la opción de pensamiento 2.0 (real) precedente. Esta implementación orientada al consumidor sugiere que Google está utilizando el ecosistema de aplicaciones para compendiar comentarios más amplios sobre su construcción de razonamiento.
A medida que la IA se integra cada vez más en los flujos de trabajo de negocios, el enfoque de Google con razonamiento personalizable refleja un mercado en maduración donde la optimización de costos y el ajuste del rendimiento se están volviendo tan importantes como las capacidades sin procesar, lo que indica una nueva etapa en la comercialización de tecnologías generativas de IA.