

Operai introdujo el modo de voz reformista el año pasado adjunto con el tirada de GPT-4O. Esta característica utiliza modelos multimodales nativamente, como GPT-4O, y puede objetar a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta humana en una conversación típica. Incluso puede producir audio que se siente más natural, vislumbrar señales no verbales, como la velocidad que estás hablando y objetar con emoción.
A principios de este año, Openai lanzó una modernización último del modo de voz reformista que redujo las interrupciones y los acentos mejorados. Hoy, Openai tiene audaz Una modernización significativa al modo de voz reformista, lo que hace que suene aún más natural y como humano. Las respuestas ahora presentan una entonación más sutil, cadencia realista, incluidas las pausas y el vigor, y la viveza más precisa para ciertas emociones como la empatía y el sarcasmo.
Wow, nueva voz expresiva en@ChatgptappNo solo deje, funciona. Se siente menos como una IA y más como un amigo humano. Buen trabajo@Opadaiequipo. 🎤🎶🚀 pic.twitter.com/lrkkns3g3c
– Shaun Ralston (@ShaUnralston) 7 de junio de 2025
Esta modernización todavía presenta soporte para la traducción. Los usuarios de ChatGPT ahora pueden usar el modo de voz reformista para traducir entre idiomas. Simplemente solicite a ChatGPT que comience a traducir, y continuará traduciendo a lo dispendioso de la conversación hasta que se le indique que se detenga. Esta característica reemplaza efectivamente la privación de aplicaciones de traducción de voz dedicadas.
Por ahora, el modo de voz reformista actualizado solo está acondicionado para los usuarios pagados de ChatGPT. Operai todavía señaló que hay algunas limitaciones conocidas con esta última modernización, que se describe a continuación.
- Esta modernización ocasionalmente puede dar como resultado menores reducciones en la calidad de audio, como variaciones inesperadas en el tono y el tono, especialmente notables con ciertas opciones de voz. Operai calma mejorar la consistencia de audio con el tiempo.
- Las raras alucinaciones en el modo de voz aún persisten, a veces producen sonidos involuntarios que se asemejan a anuncios, galimas o música de fondo.
Si proporcionadamente quedan algunas limitaciones menores, el flujo constante de mejoras apunta a un futuro en el que la hilera entre la conversación humana y la IA se vuelve cada vez más indistinguible.