La nueva aparejo de inteligencia químico de código franco de Meta te ayuda a fregar grabaciones ruidosas con solo escribir

Aniquilar el audio generalmente significa fregar líneas de tiempo y ajustar filtros, pero Meta cree que debería ser tan viable como describir el sonido que deseas. la empresa tiene libre un nuevo maniquí de IA de código franco llamado SAM Audio que puede aislar casi cualquier sonido de una disco compleja mediante simples indicaciones de texto.

Los usuarios pueden extraer ruidos específicos como voces, instrumentos o sonidos de fondo sin tener que inquirir en complicados programas de tirada. El maniquí ya está apto a través de Segmento de Meta Cualquier cosa que alberga otras herramientas de tirada de imágenes y videos basadas en indicaciones.

🔉 Presentamos SAM Audio, el primer maniquí unificado que aísla cualquier sonido de mezclas de audio complejas mediante indicaciones de texto, visuales o de extensión.

Compartimos SAM Audio con la comunidad, yuxtapuesto con un maniquí de codificador de percepción, puntos de narración y artículos de investigación, para capacitar a otros para… pic.twitter.com/FuMJyULmJR

— IA en Meta (@AIatMeta) 16 de diciembre de 2025

En términos generales, SAM Audio está diseñado para comprender con qué sonido desea trabajar y separarlo claramente de todo lo demás. Meta dice que esto abre la puerta a una tirada de audio más rápida para casos de uso como producción musical, podcasting, cine y televisión, herramientas de accesibilidad e investigación.

Por ejemplo, un creador podría aislar las voces de la disco de una partida, eliminar el ruido del tráfico de un podcast o eliminar el quejido de un perro de una disco que de otro modo sería perfecta, todo ello describiendo a qué quiere que se dirija el maniquí.

Cómo funciona SAM Audio

SAM Audio es un maniquí multimodal que admite tres tipos diferentes de indicaciones. Los usuarios pueden describir un sonido usando texto, hacer clic en una persona u objeto en un video para identificar visualmente el sonido que desean aislar o marcar un traspié de tiempo donde el sonido aparece por primera vez. Estas indicaciones se pueden usar solas o combinadas, lo que brinda a los usuarios un control detallado sobre lo que se separa.

Debajo del capó, el sistema se apoyo en el motor audiovisual Perception Encoder de Meta. Actúa como la capacidad del maniquí para rebuscar y comprender sonidos antaño de eliminarlos de la mezcla.

Para mejorar la evaluación de la separación de audio, Meta asimismo presentó SAM Audio-Bench, un punto de narración para contar qué tan adecuadamente los modelos manejan el palabra, la música y los posesiones de sonido. Está acompañado por SAM Audio Judge, que evalúa qué tan natural y preciso suena el audio separado para los oyentes humanos, incluso sin pistas de narración con las que comparar.

Meta afirma que estas evaluaciones muestran que SAM Audio funciona mejor cuando se combinan diferentes tipos de mensajes y puede manejar audio más rápido que en tiempo actual, incluso a escalera.

Dicho esto, el maniquí tiene claras limitaciones. No admite indicaciones basadas en audio, no puede realizar una separación completa sin ninguna indicación y tiene problemas con sonidos superpuestos similares, como aislar una sola voz de un coro.

Meta dice que planea mejorar estas áreas y ya está explorando aplicaciones del mundo actual, incluido el trabajo de accesibilidad con fabricantes de audífonos y organizaciones que apoyan a personas con discapacidades.

El tiro de SAM Audio se vincula con el impulso más amplio de la IA de Meta. La compañía está mejorando la claridad de la voz en sus anteojos de IA para entornos ruidosos, trabajando en anteojos de ingenuidad mixta de próxima gestación que se paciencia lleguen en 2027 y desarrollando una IA conversacional que podría rivalizar con ChatGPT, lo que indica un enfoque más amplio en modelos de IA que comprenden el sonido, el contexto y la interacción.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

La nueva aparejo de inteligencia químico de código franco de Meta te ayuda a fregar grabaciones ruidosas con solo escribir

Cómo funciona SAM Audio

ztevenreal

Related Posts

La temporada 3 de Silo acaba de tomar una gran modernización sobre el tiempo de dispersión

El avance de la CPU Intel Nova Lake enumera el soporte oficial para la veloz RAM DDR5-8000: el sistema de energía mejorado de la mini PC B960 indica las mayores demandas de energía de Nova Lake

You Missed

Dominicana y Venezuela chocarán invictos por el liderato del Orden D en el Clásico Mundial

el estabilidad de la inestabilidad

La temporada 3 de Silo acaba de tomar una gran modernización sobre el tiempo de dispersión

¿Quién será el Gran Soberano? Estos son los nombres que suenan para el mayor premio

Experto alerta sobre suspensión peligro de amputaciones y mortalidad por enfermedad arterial periférica en pacientes con diabetes

EU: Hoy será nuestro día más intenso de ataques contra Irán | AlMomento.net