Voxtral de Mistral va más allá de la transcripción con recapitulación, funciones activadas por el palabra


¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora


Mistral lanzó hoy un maniquí de voz de código descubierto que podría rivalizar con voz de voz pagada, como las de Merienda y Hume aique la compañía dijo que une la brecha entre los modelos patentados de agradecimiento de voz y las versiones más abiertas pero propensas a errores.

Voxtral, que Mistral se lanzará bajo una deshonestidad Apache 2.0, está habitable en una lectura de parámetros de 24B y una modificación 3B. El maniquí más ilustre está destinado a aplicaciones a escalera, mientras que la lectura más pequeña funcionaría para casos de uso lugar y de borde.

“La voz fue la primera interfaz de la humanidad: mucho ayer de escribir o escribir, nos permite compartir ideas, coordinar el trabajo y construir relaciones. A medida que los sistemas digitales se vuelven más capaces, la voz regresa como nuestra forma más natural de interacción humana-computadora”, dijo Mistral en un blog. “Sin confiscación, los sistemas de hoy en día siguen siendo limitados: no confiables, propietarios y demasiado frágiles para el uso del mundo efectivo. El suspensión de esta brecha exige herramientas con una transcripción estupendo, comprensión profunda, fluidez multilingüe y un despliegue descubierto y flexible”.

Voxtral está habitable en la API de Mistral y un punto final de transcripción solo en su sitio web. Asimismo se puede lograr a los modelos a través de Le Chat, la plataforma de chat de Mistral.


La serie AI Impact regresa a San Francisco – 5 de agosto

La futuro escalón de IA está aquí: ¿estás sagaz? Únase a los líderes de Block, GSK y SAP para una visión monopolio de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo efectivo hasta la automatización de extremo a extremo.

Asegure su circunstancia ahora: el espacio es escaso: https://bit.ly/3guuplf


Mistral dijo que la IA del discurso “significaba designar entre dos compensaciones”, señalando que algunos modelos de agradecimiento de voz automatizado de código descubierto a menudo tenían una comprensión semántica limitada. Aún así, los modelos cerrados con una válido comprensión del verbo tienen un suspensión costo.

Bridging the Gap

La compañía dijo que Voxtral “ofrece una precisión de vanguardia y una comprensión semántica nativa a la intemperie, a menos de la parte del precio de las API comparables”.

Voxtral, en un contexto de token de 32k, puede escuchar y transcribir hasta 30 minutos de audio o 40 minutos de comprensión de audio. Ofrece recapitulación, lo que significa que el maniquí puede objetar preguntas basadas en el contenido de audio y suscitar resúmenes sin cambiar a un modo separado. Los usuarios pueden activar funciones y llamadas API basadas en instrucciones habladas.

El maniquí se sostén en el Mistral Small 3.1 de Mistral. Admite múltiples idiomas y puede detectar automáticamente idiomas como inglés, castellano, francés, portugués, hindi, tudesco, italiano y holandés.

Mistral agregó características empresariales a Voxtral, incluida la implementación privada, para que las organizaciones puedan integrar el maniquí en sus propios ecosistemas. Estas características incluso incluyen ajustes finos específicos de dominio y contexto liberal y ataque prioritario a medios de ingeniería para clientes que necesitan ayuda para integrar Voxtral en sus flujos de trabajo.

Diligencia

El agradecimiento de voz AI ahora está habitable en muchas plataformas hoy. Los usuarios pueden musitar con ChatGPT, y la plataforma procesará las instrucciones habladas de guisa similar a las indicaciones escritas. Se han desplegado cadenas de comida rápida como White Castle Sano a sus servicios de entrada, y ElevenLabs ha mejorado constantemente su plataforma multimodal. El espacio de código descubierto incluso ofrece opciones potentes. Nari Labsuna startup, lanzó el maniquí de discurso de código descubierto Dia en abril. Sin confiscación, algunos de estos servicios pueden ser proporcionado caros.

Servicios de transcripción como Nutria y Observar.ai ahora puede incrustarse en las reuniones de teleobjetivo, aprender, resumir e incluso alertar a los usuarios sobre medios procesables. Muchas plataformas de reuniones de video en vírgula ofrecen no solo transcripción, sino incluso discursos ai y ai de agente, con Google Reuniones que proporcionan la opción de tomar notas para los usuarios que usan Gemini. Como sucesor regular de servicios de transcripción de voz, puedo proponer de primera mano que la IA de agradecimiento de voz no es perfecta, pero está mejorando.

Mistral declaró que Voxtral superó a los modelos de voz existentes, incluidos OpadaiWhisper, Géminis 2.5 Flash y escriba de Elevenlabs. Voxtral presentó menos errores de palabras en comparación con Whisper, que actualmente se considera el mejor maniquí de agradecimiento de voz forzoso habitable.

En términos de comprensión de audio, Voxtral Small es “competitivo con GPT-4O-Mini y Gemini 2.5 flash en todas las tareas, logrando el rendimiento de vanguardia en la traducción del palabra”.

Desde que anunció Voxtral, los usuarios de las redes sociales dijeron que han estado esperando un maniquí de palabra de código descubierto que pueda igualar el rendimiento de Whisper.

Mistral dijo que Voxtral estará habitable a través de su API a $ 0.001 por minuto.


Related Posts

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Entre enero y agosto de 2025, los ingresos de la App Store procedentes de aplicaciones de IA generativa casi se triplicaron. impulsado en gran medida por las suscripciones a ChatGPT.…

El tendero es estafado cuando un cliente de eBay devuelve un RTX 5090 de $ 4,000 al que le faltan módulos de memoria y núcleo de GPU: Zotac en pleno funcionamiento, despojado de los componentes más valiosos y devuelto

Tenemos otro caso clásico de estafa de piezas de PC que involucra al RTX 5090. Según un tendero de ebayun cliente hizo poco rápido al devolver una Zotac Gaming GeForce…

You Missed

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido

Chiky Bombom revela que renovó su resolución con Telemundo tras rumores de despido

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Apple ganó aproximadamente 900 millones de dólares con aplicaciones de IA generativa en 2025

Exceso de velocidad causa 4 de cada 10 accidentes en La Altagracia

Exceso de velocidad causa 4 de cada 10 accidentes en La Altagracia

El petróleo, un espíritu que gobierna el mundo

El petróleo, un espíritu que gobierna el mundo

El tendero es estafado cuando un cliente de eBay devuelve un RTX 5090 de $ 4,000 al que le faltan módulos de memoria y núcleo de GPU: Zotac en pleno funcionamiento, despojado de los componentes más valiosos y devuelto

El tendero es estafado cuando un cliente de eBay devuelve un RTX 5090 de $ 4,000 al que le faltan módulos de memoria y núcleo de GPU: Zotac en pleno funcionamiento, despojado de los componentes más valiosos y devuelto

Condenan a 20 primaveras hombre contrató sicario para matar a su padre

Condenan a 20 primaveras hombre contrató sicario para matar a su padre