Aniquilar el audio generalmente significa fregar líneas de tiempo y ajustar filtros, pero Meta cree que debería ser tan viable como describir el sonido que deseas. la empresa tiene libre un nuevo maniquí de IA de código franco llamado SAM Audio que puede aislar casi cualquier sonido de una disco compleja mediante simples indicaciones de texto.
Los usuarios pueden extraer ruidos específicos como voces, instrumentos o sonidos de fondo sin tener que inquirir en complicados programas de tirada. El maniquí ya está apto a través de Segmento de Meta Cualquier cosa que alberga otras herramientas de tirada de imágenes y videos basadas en indicaciones.
En términos generales, SAM Audio está diseñado para comprender con qué sonido desea trabajar y separarlo claramente de todo lo demás. Meta dice que esto abre la puerta a una tirada de audio más rápida para casos de uso como producción musical, podcasting, cine y televisión, herramientas de accesibilidad e investigación.

Por ejemplo, un creador podría aislar las voces de la disco de una partida, eliminar el ruido del tráfico de un podcast o eliminar el quejido de un perro de una disco que de otro modo sería perfecta, todo ello describiendo a qué quiere que se dirija el maniquí.
Cómo funciona SAM Audio
SAM Audio es un maniquí multimodal que admite tres tipos diferentes de indicaciones. Los usuarios pueden describir un sonido usando texto, hacer clic en una persona u objeto en un video para identificar visualmente el sonido que desean aislar o marcar un traspié de tiempo donde el sonido aparece por primera vez. Estas indicaciones se pueden usar solas o combinadas, lo que brinda a los usuarios un control detallado sobre lo que se separa.

Debajo del capó, el sistema se apoyo en el motor audiovisual Perception Encoder de Meta. Actúa como la capacidad del maniquí para rebuscar y comprender sonidos antaño de eliminarlos de la mezcla.
Para mejorar la evaluación de la separación de audio, Meta asimismo presentó SAM Audio-Bench, un punto de narración para contar qué tan adecuadamente los modelos manejan el palabra, la música y los posesiones de sonido. Está acompañado por SAM Audio Judge, que evalúa qué tan natural y preciso suena el audio separado para los oyentes humanos, incluso sin pistas de narración con las que comparar.
Meta afirma que estas evaluaciones muestran que SAM Audio funciona mejor cuando se combinan diferentes tipos de mensajes y puede manejar audio más rápido que en tiempo actual, incluso a escalera.

Dicho esto, el maniquí tiene claras limitaciones. No admite indicaciones basadas en audio, no puede realizar una separación completa sin ninguna indicación y tiene problemas con sonidos superpuestos similares, como aislar una sola voz de un coro.
Meta dice que planea mejorar estas áreas y ya está explorando aplicaciones del mundo actual, incluido el trabajo de accesibilidad con fabricantes de audífonos y organizaciones que apoyan a personas con discapacidades.
El tiro de SAM Audio se vincula con el impulso más amplio de la IA de Meta. La compañía está mejorando la claridad de la voz en sus anteojos de IA para entornos ruidosos, trabajando en anteojos de ingenuidad mixta de próxima gestación que se paciencia lleguen en 2027 y desarrollando una IA conversacional que podría rivalizar con ChatGPT, lo que indica un enfoque más amplio en modelos de IA que comprenden el sonido, el contexto y la interacción.





