
Google está lanzando una modernización importante de sus modelos de audio Gemini, brindando poderosas capacidades de traducción de voz a voz en vivo a la aplicación Google Translate. Esta modernización utiliza el maniquí mejorado Gemini 2.5 Flash Native Audio, que está diseñado para manejar interacciones de voz complejas.
Esta nueva función de traducción de voz en vivo está diseñada específicamente para auriculares y básicamente le permite escuchar el mundo que lo rodea traducido en tiempo positivo. Esta experiencia beta se está implementando ahora mismo en la aplicación Google Translate. Si viaja o simplemente necesita comunicarse a través de la barrera del idioma, esta es una función que verdaderamente podría cambiar la forma en que interactúa con personas que no hablan su idioma nativo.
La funcionalidad se divide en dos modos. En primer espacio, hay una audición continua. Esto es consumado para situaciones como escuchar una conferencia o seguir una conversación grupal. La IA audición varios idiomas diferentes a la vez y los convierte todos al único idioma que usted entiende. Simplemente te pones los auriculares y escuchas el mundo traducido directamente. En segundo espacio, hay una conversación bidireccional.
Esto maneja la traducción en tiempo positivo entre dos idiomas específicos e intercambia automáticamente los idiomas sobre la marcha dependiendo de quién esté hablando. Por ejemplo, si palabra inglés y la persona frente a usted palabra hindi, escuchará las traducciones al inglés instantáneamente en sus auriculares y, cuando responda, su teléfono transmitirá la traducción al hindi.
El detalle que verdaderamente hace que esta característica se destaque se lumbre “transferencia de estilo”. Esto permite a los usuarios escuchar los matices del palabra humana. Imita la voz positivo del hablante, igualando su velocidad y tono para que la traducción no suene robótica. Más allá de eso, el sistema ofrece un filtrado de ruido sólido, lo que significa que aún puede sustentar una conversación cómoda incluso si se encuentra en un medio ambiente ruidoso al melodía vacante.
La cobertura de traducción es amplia y admite más de 70 idiomas y 2000 pares de idiomas. Este amplio soporte se debe a la combinación del poder de procesamiento de audio de Gemini con su amplia colchoneta de datos de idiomas.
Otro componente secreto es la entrada multilingüe y la detección cibernética. Esto permite que el sistema comprenda varios idiomas simultáneamente en una sola sesión. No necesita meterse con la configuración y ni siquiera necesita enterarse qué idioma se palabra para comenzar a traducir. La aplicación descubre el idioma por sí sola y comienza a traducir.
Detrás de todo esto está el maniquí actualizado Gemini 2.5 Flash Native Audio, que incluso impulsa los agentes de voz en vivo de Google en varios productos. Google ha mejorado el maniquí en tres áreas técnicas secreto que deberían dar como resultado un rendimiento más ágil para quienes utilizan las herramientas.
El maniquí ahora tiene llamadas de funciones más nítidas. Esto significa que el sistema es más confiable cuando necesita conectarse a herramientas externas. Por ejemplo, puede capturar datos en vivo mientras palabra sin pausar ni interrumpir el flujo. Google informa una tasa de cumplimiento de las instrucciones del desarrollador del 90%, frente al 84% de versiones anteriores.
Por zaguero, las conversaciones en sí deberían ser más fluidas. La maniquí recuerda lo que dijiste anteriormente en el chat. Esto ayuda a que se mantenga en el tema y se sienta menos como un intercambio inconexo. Yo diría que esta restablecimiento en la calidad de la conversación en varios turnos es lo que verdaderamente se necesita para la estabilidad de cualquier asistente de voz.
Estas mejoras no son sólo para la aplicación Traducir. El nuevo Gemini 2.5 Flash Native Audio se está implementando en todos los productos de Google, incluidos Google AI Studio, Vertex AI, Gemini Live y Search Live. Todavía puede esperar sesiones de profusión de ideas más efectivas con Gemini Live o mejor ayuda en tiempo positivo en Search Live.
Si desea probar la función de traducción en vivo, la experiencia beta se implementará a partir de hoy en la aplicación Google Translate. Puede conectar sus auriculares a su dispositivo y tocar “Traducir en vivo”. Por ahora, esta experiencia está habitable en dispositivos Android en EE. UU., México e India, y próximamente será compatible con iOS y más regiones.
Fuente: Google






