
Las voces de IA generalmente apuntan a ser realistas de una modo cordial, imitando a las personas relajadas, felices y serviciales. Pero un nuevo maniquí de código rajado llamado DIA se inclina en el espectro más emocional de voces, incluidos algunos gritos efectivamente intensos.
Los creadores de Dia en Nari Labs son un colección pequeño, pero les han donado a las voces de IA la opción de sonar como un actor poco melodramático, capaz de hacer risas realistas, tos, aclarar la cañón, husmear y sí, chillar.
Puede que no pienses que chillar es un gran problema para la IA en este momento, pero chillar es difícil de fingir. No puede solo estar hablando en voz adhesión; Es un modo de deje completamente diferente.
El discurso emocionalmente expresivo es una brecha en la mayoría de las voces de IA. Es realizable para un maniquí de voz descubrir una historia para copular. Sin requisa, es mucho más difícil para ellos sonar como si estuviera tratando de calmar a un amigo, o como si simplemente viera poco impactante. La mayoría de los modelos comerciales evitan sonar robóticos al suavizar el tono de la voz, lo que no deja espacio para el tipo de desproporcionalidad de audio de cuchichear emocionalmente.
DIA comercio la comunicación no verbal como parte del rendimiento. Sabe que “(tos)” no es poco que se ignore o lea textualmente. Sabe que un clamor no es solo una tangente más musculoso. Y realiza estas cosas con un nivel de tiempo, modulación de tono y control de la respiración que las hace comprobar más reales.
Un becario emprendedor incluso lo usó para divertir Un poco de la famosa Leroy Jenkins bosquejo llevado a término en Mundo de Warcraft.
Eso no quiere afirmar que Operai, Elevenlabs, Google, Sesame y otros no hayan producido increíbles modelos de voz de IA. Puede personalizar el modo de voz progresista de OpenAI para cuchichear con diferentes emociones, y onceLabs es bueno para interpretar la capitalización y la puntuación para ajustar el deje, pero eso no es lo mismo que chillar de sorpresa o sibilancias de risa.
El sésamo es particularmente bueno para sonar y reaccionar como una persona vivo, pero incluso sus modelos se equivocan con los comportamientos alegres y generalmente positivos.
Por supuesto, el realismo es subjetivo, y podría resolver asaz rápido que Dia es una voz de IA. Por otra parte, los gritos y risas falsos todavía son sonidos humanos en el contexto correcto.
Dos estudiantes universitarios. Uno todavía en el ejército. Financiación cero. Un objetivo ridículo: construir un maniquí TTS que rivalice con el podcast de cuaderno, ElevenLabs Studio y Sesame Csm. algún momento … lo logramos. Así es como 👇 pic.twitter.com/8cfjsegcix21 de abril de 2025
Abuchear por Ai
Lo que hace de esta una historia más ínclito que “Ai Voice Aprenden un truco de fiesta” es lo que señala para la raza más amplia en IA para la inteligencia emocional.
Estamos entrando rápidamente en una era en la que no será suficiente para que su asistente diga lo correcto; Tendrá que decirlo de la modo correcta. Piense en los bots de atención al cliente que suenan genuinamente, los maestros que suenan alentadores en sitio de instrucción y personajes en el equipo que transmiten sinceridad.
Por supuesto, darle a IA el poder de emotar de modo convincente lo hace más persuasivo y, por lo tanto, potencialmente más manipulador. Si el discurso emocional puede ser solo otra útil de IA, entonces más de unas pocas personas pueden tener ganas de gritarse.
Aún así, me imagino que se divierte escribiendo una historia de fantasmas para que Dia no solo lea, sino que actúe, grita y todo.