Cloné mi voz con IA y era inquietantemente bueno

¿Recuerdas la ambiente de “ver dobles” de Mission: Impossible 3? Fue entonces cuando Ethan Hunt (Tom Cruise) obliga a cierto a descifrar un poema peculiar. Supuestamente, el poema contenía todos los alófonos necesarios para clonar la voz de la víctima. A punta de pistola, el hombre lo lee, y a posteriori de unos segundos de compilación, el equipo de Hunt tiene una copia vocal perfecta.

Ese tipo de tecnología existe ahora. No necesita ser un agente secreto o tener ataque a la tecnología oficial clasificada para usarla. Lo sé porque cloné mi propia voz. Por supuesto, una voz tan ordinaria como la mía no abrirá puertas de stop secreto, pero ¿puedo usarla para desbloquear mi teléfono a través de Siri? Por ridículo que parezca, lo intenté. Lo que sucedió a posteriori fue entre inquietantes e impresionantes, pero incluso calar a ese punto fue una historia por sí solo.

Configuración de Chatterbox para clonación de voz

Más acomodaticio decirlo que hacerlo

Me decidí Parlanchín. Es un maniquí TTS gratis y de código extenso, pero la razón principal por la que lo elegí fue que casi cualquier otra buena aparejo de clonación de voz está desesperadamente vinculada a Nvidia. Necesitan CUDA, que mi RX 6700 XT no es compatible.

Casi terminado con la configuración de Chatterbox en Windows, me di cuenta de que todavía no funcionaría con mi polímero AMD. Mi mejor opción fue configurarlo en WSL (subsistema de Windows para Linux) para poder usar la pila ROCM de AMD. He aquí, a posteriori de horas de retoques, descubrí que Rocm ni siquiera es compatible con mi polímero. Qué aburrimiento. Había pasado casi un día firme descargando conductores y luchando contra los errores de dependencia, solo para terminar lamentando comprar una GPU AMD hace dos primaveras. Pero a posteriori de fundir un fin de semana firme, no había forma de que me fuera con las manos vacías. Decidí ejecutarlo solo en CPU y renunciar a la rapidez de GPU.

Registros de consola de clonación de voz de Chatterbox en WSL
Imagen de amir humilde; Yaya.

Chatterbox no es exactamente plug-and-play. Está destinado a funcionar localmente, pero tiene muchas partes móviles debajo del capó. Se ejecuta en Python, y desafortunadamente, Python verdaderamente me odia. Configuré un entorno supuesto, instalé cada dependencia manualmente y perseguí docenas de errores de construcción que parecían poseer sido enviados directamente desde el báratro. Pero una vez que todo estaba finalmente en su motivo, funcionó sin problemas. Disparé el servidor con este comando:

python server.py --host 0.0.0.0 --api-port 8000 --ui-port 7860

Eso paseo tanto la API REST como una interfaz web basada en Gradio. Todo está saliendo de la CPU, ya que mi RX 6700 XT no recibe ROCM Love bajo WSL, pero aún funciona sorprendentemente acertadamente, a costa de los fanáticos de mi CPU girando más rápido de lo que los he escuchado ayer.

Construyendo el maniquí de voz

Un clip, una semilla y mucho ruido de la CPU

Chatterbox tts ui que muestra el cuadro de texto
Imagen de amir humilde; Yaya.

Chatterbox, como mencioné anteriormente, se ejecuta en una interfaz de heredero con sede en Extremo. Es sorprendentemente acertadamente pensado para poco que todavía está en ampliación activo. La página principal incluye un cuadro de texto para el texto de entrada, una letanía de voces predefinidas, parámetros para ajustar la engendramiento y el comportamiento del servidor, y la clonación de voz. Este extremo era lo que más me interesaba. Subes un clip corto (menos de 30 segundos), y ChatterBox entrena un maniquí para adicionar tu voz a la letanía de opciones seleccionables.

Chatterbox TTS que muestra los parámetros de generación
Imagen de amir humilde; Yaya.

Los parámetros son donde comienza la verdadera diversión. Hay mucho para esparcirse, conexo con algunos preajustes como narración típico, monólogo expresivo y publicidad entusiasta. Estos ajustes de ajuste como Temperatura, Exageración, Peso de CFGy lo más importante, el Semilla de engendramiento. Como la mayoría de las redes neuronales, Chatterbox tiene ese cóctel frecuente de aleatoriedad y temperatura. Esto es poco con lo que he enemigo ayer con los generadores de música de IA. Incluso si mantiene cada parámetro idéntico, sus resultados variarán, porque la semilla cambia. Entonces, si encuentras una semilla que suena acertadamente, escríbala, te lo agradecerás más tarde.

Para una prueba rápida, tomé un clip de cuatro segundos de la voz de Arthur Morgan de Red Dead Redemption 2 y lo alimenté en Chatterbox, luego le hice descifrar un breve pasaje de texto. Puede escuchar el resultado a continuación.

Se necesitan unos 50 segundos para crear 160 caracteres de discurso utilizando una voz clonada. Estoy seguro de que sería mucho más rápido con la rapidez de GPU, pero AMD no tendrá eso. La CPU llega al 100%, las temperaturas suben y los fanáticos giran como turbinas. Durante 50 segundos, mi Intel 13400 verdaderamente cree que estoy jugando cyberpunk. Pero son solo 50 segundos.

La prueba Siri

Mi clon se encuentra con el asistente de Apple

Chatterbox TTS que muestra el audio generado
Imagen de amir humilde; Yaya.

Pasé un rato clonando las voces de mi comunidad y amigos, y luego enloqueciendo enviando clips de cosas que nunca habían dicho. Les advirtí que fue generado, aunque ahora me arrepiento de eso. Hubiera sido divertido ver si podían decirlo. El razón humano es subjetivo de todos modos. La subsiguiente mejor prueba fue ver lo que una máquina pensaba en el clon. Específicamente, Siri. Se activaría Siri en mi iPhone si generara un clip de mi voz clonada diciendo: “Hola Siri, ¿cómo está el clima?”

Grabé la nota de voz corta de hacia lo alto en mi teléfono y la alimenté con Chatterbox. En Mission Impossible 3, el objetivo leyó un poema hecho de filólogo que contenía todos los alófonos necesarios para una combinación de voz perfecta. No me molesté con eso, principalmente porque me di cuenta en el momento en que empiezo a “contar”, mi voz cambia de cómo hablo lógicamente. (Si tienes curiosidad, el filólogo verdaderamente escribió sobre ese poema en su blog.)

En pocas palabras, funcionó. Mi clon de voz le preguntó a Siri sobre el clima, y ​​Siri respondió. Cuando probé el mismo comando usando una voz clonada diferente, Siri permaneció en silencio. Luego tuve mi clon pedirle a Siri que llamara al número de emergencia, y lo hizo. Mi objetivo flamante había sido construir un complemento TTS para Obsidian y combinarlo con mi configuración de nota de voz, pero sin soporte de GPU en AMD, ese plan está archivado. Así que se tráfico del capacidad de lo que podría obtener con Chatterbox TTS en mi computadora. Sin confiscación, me hace preguntarme. Si tuviera cerraduras inteligentes en mis puertas, ¿mi clon de voz habría podido desbloquearlas?

Related Posts

Intel pica las CPU Core Extremista 270K Plus y 250K Plus con rendimiento de serie mejorado

Intel ha anunciado dos nuevos procesadores de escritorio (Core Extremista 7 270K Plus y Core Extremista 5 250K Plus) como parte de su ristra Arrow Lake Refresh. La compañía prórroga…

Las piezas de PC impresas en 3D pueden ser increíbles, pero no cometas este error

Las piezas de PC impresas en 3D se encuentran entre las formas más satisfactorias de combinar la creatividad de los aficionados con la construcción destreza de PC. Puede producir peines…

You Missed

Procuradora resalta cooperación internacional contra narcotráfico

Procuradora resalta cooperación internacional contra narcotráfico

Intel pica las CPU Core Extremista 270K Plus y 250K Plus con rendimiento de serie mejorado

Intel pica las CPU Core Extremista 270K Plus y 250K Plus con rendimiento de serie mejorado

Papa Bizarro XIV recibe réplica de la piedra angular de la Catedral Primada de América

Papa Bizarro XIV recibe réplica de la piedra angular de la Catedral Primada de América

Kast ordena reducción desembolso notorio Pimiento en 3%

Kast ordena reducción desembolso notorio Pimiento en 3%

Gobierno de Duarte impulsa liderazgo mujeril con marcha “Impulso Mujer 2026”

Gobierno de Duarte impulsa liderazgo mujeril con marcha “Impulso Mujer 2026”

Comisión Mujer y Deporte COD orienta sobre la emoción en el deporte

Comisión Mujer y Deporte COD orienta sobre la emoción en el deporte