
Meta acaba de editar un nuevo sistema de inspección espontáneo de voz (ASR) multilingüe admite más de 1600 idiomas, eclipsando el maniquí Whisper de código descubierto de OpenAI, que admite solo 99.
Esta bloque además permite a los desarrolladores ampliar ese soporte a miles más. A través de una función emplazamiento formación en contexto de disparo cero, los usuarios pueden proporcionar algunos ejemplos emparejados de audio y texto en un nuevo idioma en el momento de la inferencia, lo que permite al maniquí transcribir expresiones adicionales en ese idioma sin ningún reentrenamiento.
En la actos, esto amplía la cobertura potencial a más de 5.400 idiomas, aproximadamente todos los idiomas hablados con una escritura conocida.
Es un cambio de las capacidades del maniquí suspenso a un situación flexible que las comunidades pueden adaptar por sí mismas. Entonces, si perfectamente los 1.600 idiomas reflejan la cobertura de capacitación oficial, la guarismo más amplia representa la capacidad de Omnilingual ASR para divulgar bajo demanda, lo que lo convierte en el sistema de inspección de voz más desplegable atrevido hasta la época.
Lo mejor de todo: ha sido de código descubierto en una atrevimiento simple de Apache 2.0 – no una atrevimiento Lumbre restrictiva y casi de código descubierto como los lanzamientos anteriores de la compañía, que limitaban el uso por parte de empresas más grandes a menos que pagaran tarifas de atrevimiento, lo que significa que los investigadores y desarrolladores son libres de tomarla e implementarla de inmediato, improcedente, sin restricciones, ¡incluso en proyectos comerciales y de nivel empresarial!
Publicado el 10 de noviembre el sitio web de meta, GitHubyuxtapuesto con un espacio de demostración en Hugging Face y documento técnicola suite Omnilingual ASR de Meta incluye una grupo de modelos de inspección de voz, un maniquí de representación de audio multilingüe de 7 mil millones de parámetros y un corpus de voz masivo que zapatilla más de 350 idiomas previamente desatendidos.
Todos los capital están disponibles gratis bajo licencias abiertas y los modelos admiten la transcripción de voz a texto de forma inmediata.
“Al desplegar el código fuente de estos modelos y conjuntos de datos, nuestro objetivo es romper las barreras del idioma, ampliar el golpe digital y empoderar a las comunidades de todo el mundo”, publicó Meta en su Cuenta @AIatMeta en X
Diseñado para la transcripción de voz a texto
En esencia, Omnilingual ASR es un sistema de conversión de voz a texto.
Los modelos están capacitados para convertir el habla hablado en texto escrito, admitiendo aplicaciones como asistentes de voz, herramientas de transcripción, subtítulos, digitalización de archivos orales y funciones de accesibilidad para idiomas de bajos capital.
A diferencia de los modelos ASR anteriores que requerían una gran cantidad de datos de entrenamiento etiquetados, Omnilingual ASR incluye una modificación de disparo cero.
Esta interpretación puede transcribir idiomas nunca antaño vistos, utilizando solo unos pocos ejemplos emparejados de audio y el texto correspondiente.
Esto reduce drásticamente la barrera para amplificar idiomas nuevos o en peligro de agonía, eliminando la exigencia de grandes corpus o reentrenamiento.
Grupo de modelos y diseño técnico.
La suite Omnilingual ASR incluye múltiples familias de modelos entrenados en más de 4,3 millones de horas de audio en más de 1600 idiomas:
-
Modelos wav2vec 2.0 para el formación de representación de voz autosupervisado (parámetros 300M–7B)
-
Modelos ASR basados en CTC para una transcripción supervisada válido
-
Modelos LLM-ASR que combinan un codificador de voz con un decodificador de texto basado en Transformer para una transcripción de última vivientes
-
Maniquí LLM-ZeroShot ASR, que permite la ajuste del tiempo de inferencia a lenguajes invisibles
Todos los modelos siguen un diseño de codificador-decodificador: el audio sin procesar se convierte en una representación independiente del idioma y luego se decodifica en texto escrito.
Por qué es importante la escalera
Si perfectamente Whisper y modelos similares tienen capacidades ASR avanzadas para idiomas globales, se quedan cortos en la larga nalgas de la pluralidad filología humana. Whisper admite 99 idiomas. El sistema de Meta:
-
Admite directamente más de 1600 idiomas
-
Puede divulgar a más de 5400 idiomas mediante el formación en contexto
-
Alcanza tasas de error de caracteres (CER) inferiores al 10 % en el 78 % de los idiomas admitidos.
Entre los soportados se encuentran más de 500 idiomas nunca antaño cubiertos por ningún maniquí ASR, según el artículo de investigación de Meta.
Esta expansión abre nuevas posibilidades para las comunidades cuyas lenguas suelen concluir excluidas de las herramientas digitales.
Aquí está la sección de historial revisada y ampliada, que integra el contexto más amplio de la logística de IA de Meta para 2025, los cambios de liderazgo y la recibo de Lumbre 4, completa con citas y enlaces en el texto:
Referencias: revisión de la IA de Meta y un resurtida de Lumbre 4
El propagación de Omnilingual ASR llega en un momento crucial en la logística de IA de Meta, luego de un año traumatizado por turbulencias organizacionales, cambios de liderazgo y ejecución desigual de productos.
Omnilingual ASR es el primer propagación importante de un maniquí de código descubierto desde el propagación de Lumbre 4, el zaguero maniquí de habla ilustre de Meta, que debutó en abril de 2025 a críticas mixtas y, en última instancia, malas, con escasa asimilación empresarial en comparación con los competidores chinos del maniquí de código descubierto.
El fracaso llevó al fundador y director ejecutor de Meta, Mark Zuckerberg, a nombrar a Alexandr Wang, cofundador y inicial director ejecutor del proveedor de datos de IA Scale AI. como director de inteligencia sintéticoy embarcarse en un ola de contratación extensa y costosa que conmocionó a la IA y a las comunidades empresariales con Paquetes de cuota deslumbrantes para los mejores investigadores de IA.
Por el contrario, Omnilingual ASR representa un reinicio importante y reputacional. Devuelve a Meta a un dominio en el que la empresa ha liderado históricamente (la IA multilingüe) y ofrece una pila verdaderamente desplegable y orientada a la comunidad con barreras de entrada mínimas.
El soporte del sistema para más de 1600 idiomas y su extensibilidad a más de 5000 más a través del formación en contexto sin intervención reafirma la credibilidad de ingeniería de Meta en la tecnología del habla.
Es importante destacar que lo hace a través de una interpretación gratuita y con atrevimiento permisiva, bajo Apache 2.0, con un abasto de conjuntos de datos transparente y protocolos de capacitación reproducibles.
Este cambio se alinea con temas más amplios de la logística de Meta para 2025. La compañía ha reorientado su novelística en torno a una visión de “superinteligencia personal”, invirtiendo fuertemente en infraestructura (incluido el propagación en septiembre de aceleradores de IA personalizados y pilas de inferencia basadas en Arm). fuente mientras se minimiza el metaverso en atención de las capacidades fundamentales de la IA. El regreso a los datos públicos de formación en Europa tras una pausa regulatoria además subraya su intención de competir conjuntamente, a pesar del investigación de la privacidad. fuente.
ASR omnilingüe, entonces, es más que un propagación de maniquí: es un movimiento calculado para reafirmar el control de la novelística: desde el propagación fragmentado de Lumbre 4 hasta una contribución de entrada utilidad basada en investigaciones que se alinea con la logística de plataforma de IA a extenso plazo de Meta.
Resumen de conjuntos de datos centrados en la comunidad
Para obtener esta escalera, Meta se asoció con investigadores y organizaciones comunitarias en África, Asia y otros lugares para crear el Omnilingual ASR Corpus, un conjunto de datos de 3350 horas en 348 idiomas de bajos capital. Los contribuyentes fueron oradores locales compensados y las grabaciones se recopilaron en colaboración con grupos como:
-
Voces africanas siguientes: Un consorcio apoyado por la Fundación Gates que incluye a la Universidad Maseno (Kenia), la Universidad de Pretoria y Data Science Nigeria
-
La voz global de la Fundación Mozillaapoyado a través del Fondo Campechano de Discurso Multilingüe
-
Lanfrica / NaijaVocesque creó datos para 11 lenguas africanas, incluidas Igala, Serer y Urhobo.
La sumario de datos se centró en el acento natural y sin pendón. Las indicaciones fueron diseñadas para ser culturalmente relevantes y abiertas, como “¿Es mejor tener unos pocos amigos cercanos o muchos conocidos casuales? ¿Por qué?” Las transcripciones utilizaron sistemas de escritura establecidos, con señal de calidad incorporada en cada paso.
Consideraciones de rendimiento y hardware
El maniquí más ilustre de la suite, omniASR_LLM_7B, requiere ~17 GB de memoria GPU para inferencia, lo que lo hace adecuado para su implementación en hardware de entrada escala. Los modelos más pequeños (300M–1B) pueden ejecutarse en dispositivos de pequeño potencia y ofrecer velocidades de transcripción en tiempo positivo.
Los puntos de remisión de desempeño muestran resultados sólidos incluso en escenarios de bajos capital:
-
CER <10% en el 95% de los idiomas de capital altos y medios
-
CER <10 % en el 36 % de las lenguas de bajos capital
-
Robustez en condiciones ruidosas y dominios invisibles, especialmente con ajustes finos
El sistema zero-shot, omniASR_LLM_7B_ZS, puede transcribir nuevos idiomas con una configuración mínima. Los usuarios proporcionan algunos pares de audio y texto de muestra y el maniquí genera transcripciones para nuevas expresiones en el mismo idioma.
Acercamiento descubierto y herramientas para desarrolladores
Todos los modelos y el conjunto de datos tienen atrevimiento bajo términos permisivos:
-
apache 2.0 para modelos y código
-
CC-BY 4.0 para el Corpus ASR omnilingüe en HuggingFace
La instalación es compatible a través de PyPI y uv:
pip install omnilingual-asr
Meta además proporciona:
-
Una integración del conjunto de datos de HuggingFace
-
Tuberías de inferencia prediseñadas
-
Acondicionamiento del código de habla para mejorar la precisión
Los desarrolladores pueden ver la inventario completa de idiomas admitidos mediante la API:
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
print(len(supported_langs))
print(supported_langs)
Implicaciones más amplias
ASR omnilingüe reformula la cobertura filología en ASR de una inventario fija a una situación desplegable. Permite:
-
Inclusión impulsada por la comunidad de lenguas subrepresentadas
-
Acercamiento digital para lenguas orales y en peligro de agonía
-
Investigación sobre tecnología del acento en contextos lingüísticamente diversos
De modo crucial, Meta enfatiza consideraciones éticas en todo momento, abogando por la billete de código descubierto y la colaboración con comunidades de acento nativa.
“Ningún maniquí puede anticipar e incluir todos los idiomas del mundo por superior”, afirma el documento Omnilingual ASR, “pero Omnilingual ASR hace posible que las comunidades extiendan el inspección con sus propios datos”.
Accede a las herramientas
Todos los capital ya están disponibles en:
-
Código + Modelos: github.com/facebookresearch/omnilingual-asr
-
Conjunto de datos: huggingface.co/datasets/facebook/omnilingual-asr-corpus
-
Entrada de blog: ai.meta.com/blog/omnilingual-asr
Qué significa esto para las empresas
Para los desarrolladores empresariales, especialmente aquellos que operan en mercados multilingües o internacionales, Omnilingual ASR reduce significativamente la barrera para implementar sistemas de voz a texto en una escala más amplia de clientes y geografías.
En emplazamiento de subordinarse de API ASR comerciales que admiten solo un conjunto escaso de lenguajes de detención nivel de capital, los equipos ahora pueden integrar un canal de código descubierto que cubre más de 1600 idiomas de modo inmediata, con la opción de extenderlo a miles más a través del formación inmediato.
Esta flexibilidad es especialmente valiosa para las empresas que trabajan en sectores como atención al cliente basada en voz, servicios de transcripción, accesibilidad, educación o tecnología cívica, donde la cobertura del idioma locorregional puede ser una exigencia competitiva o regulatoria. Oportuno a que los modelos se lanzan bajo la permisiva atrevimiento Apache 2.0, las empresas pueden ajustarlos, implementarlos o integrarlos en sistemas propietarios sin términos restrictivos.
Igualmente representa un cambio en el panorama de ASR: de ofertas centralizadas y basadas en la estrato a una infraestructura ampliable por la comunidad. Al hacer que el inspección de voz multilingüe sea más accesible, personalizable y rentable, Omnilingual ASR abre la puerta a una nueva vivientes de aplicaciones de voz empresariales creadas en torno a la inclusión filología en emplazamiento de la distrito filología.






