Whisper transcribe mis notas de voz más rápido de lo que puedo escribir y funciona completamente sin conexión

No disfruto escribir largas grabaciones de voz, ya sea un fragmento de una entrevista, un breviario de una reunión o una idea aproximada que dicté mientras caminaba. Convertir manualmente audio en texto es moroso y absolutamente nadie debería hacerlo en el gran año 2026. Hay muchas herramientas de transcripción de IA que resuelven ese problema, pero introducen otro. Sus grabaciones se cargan, procesan y almacenan en una infraestructura que usted no controla. Por mucho que no me guste escribir notas de voz, prefiero no compartirlas con cualquiera. En extensión de necesitar de esos servicios, administro Whisper localmente. Es un maniquí de agradecimiento de voz de código rajado emprendedor en 2022 bajo la osadía del MIT y le permite transcribir audio completamente sin conexión.

Uso del complemento Whisper en Obsidian para convertir voz en texto en una computadora

Este complemento regalado de Obsidian convierte mi voz en notas y todo se ejecuta en mi computadora

Al utilizar el complemento Whisper con su LLM circunscrito, uso Obsidian para transcribir mis notas de voz y archivos de audio a texto en mi computadora.

¿Por qué uso Whisper?

Se ejecuta localmente y es de código rajado.

Carpeta de Whisper en el administrador de archivos.

Whisper se entrenó con 680.000 horas de audio multilingüe y funciona muy acertadamente con acentos, ruido de fondo y conversaciones en varios idiomas. Es una de las pocas herramientas de OpenAI que está en realidad abierta, lo que significa que puede descargarse y ejecutarse en su propia máquina. Eso asimismo significa que sus archivos de audio nunca salen de su dispositivo y no necesita crear una cuenta. Diablos, ni siquiera tiene una GUI. Simplemente ejecútelo en la terminal.

Herramientas como Otter.ai y Fireflies.ai requieren que cargues grabaciones en sus servidores para su procesamiento. Incluso si ofrecen garantías de enigmático y cumplimiento, usted sigue confiando en sistemas que no puede auditar usted mismo. La ejecución de Whisper localmente elimina por completo esa capa de dependencia.

Ahora que he mencionado esas herramientas, aquí está mi problema sobre cuán intrusivas pueden ser. Cuando alguno los agrega a una reunión, a menudo obtienen paso a los detalles de los participantes y comienzan a mandar correos electrónicos de seguimiento, resúmenes y recordatorios a los que no todos se registraron explícitamente. Es posible que usted mismo no haya invitado la útil, pero aún así termina en el interior de su flujo de trabajo. Encima de eso, ambas empresas se han enfrentado a un indagación en el pasado por cuestiones de privacidad y manejo de datos, lo que hace que todo el acuerdo sea más difícil de ignorar.

Volviendo a Whisper, admite 99 idiomas y puede detectar automáticamente qué idioma se deje. Asimismo puede traducir el deje a otro idioma durante la transcripción. Muchas herramientas en la abundancia se centran principalmente en el inglés, pero Whisper maneja audio multilingüe sin configuración adicional.

Técnicamente, Whisper utiliza una cimentación de red neuronal basada en Transformer y está arreglado en varios tamaños de maniquí. Los modelos más pequeños son livianos y rápidos, mientras que el maniquí más ínclito, que contiene cerca de de 1,5 mil millones de parámetros, ofrece longevo precisión pero requiere significativamente más memoria y fortuna de GPU. Asimismo hay variantes solo en inglés que funcionan sutilmente mejor con audio en inglés en comparación con las versiones multilingües. Puede nominar el maniquí que se adapte a su hardware y a sus evacuación de precisión.

Configurar Whisper localmente en una PC

Es más simple de lo que parece.

La ejecución circunscrito de Whisper requiere cierta configuración, pero es manejable. Hexaedro que se distribuye como una biblioteca de Python, necesita Python y pip instalados en su sistema. Una vez que esté implementado, puede instalar Whisper directamente desde su repositorio de GitHub usando:

pip install git+https://github.com/openai/whisper.git

Whisper asimismo depende de FFmpeg para manejar formatos de audio y video. En Debian o Ubuntu, puedes instalarlo con:

sudo apt update && sudo apt install ffmpeg

En macOS, Homebrew lo hace sencillo con brew install ffmpeg. Los usuarios de Windows pueden instalarlo usando Chocolatey con choco install ffmpeg, suponiendo que Chocolatey ya esté configurado.

Luego de la instalación, la transcripción de un archivo se realiza directamente desde la partidura de comando. Navegue hasta la carpeta que contiene su vídeo y ejecute:

whisper --model cojín --language en --task transcribe your_audio_file.mp3

Reemplace el nombre del archivo con su archivo de audio verdadero. Whisper procesa la vídeo localmente y genera una transcripción guardada en su máquina. Si prefiere usarlo en un script de Python, puede cargar el maniquí y clamar a model.transcribe() en el archivo mediante programación.

Vale la pena señalar que los modelos más grandes exigen más potencia de procesamiento y memoria. Si su sistema no tiene una GPU capaz, los modelos más pequeños como el principal o el pequeño ofrecen un invariabilidad práctico entre velocidad y precisión.

Una vez instalado, Whisper admite una amplia gradación de formatos, incluidos WAV, MP3, M4A, FLAC e incluso archivos de vídeo como MP4 o MKV. Gracias a su integración con FFmpeg, no es necesario extraer el audio manualmente de los archivos de vídeo antiguamente de procesarlos.

Cuando ejecuta el comando de transcripción, Whisper muestra el progreso en la terminal y genera segmentos de texto con marcas de tiempo. Una vez completada, la transcripción se escolta localmente en formatos como TXT o SRT, según su configuración.

De forma predeterminada, utiliza un maniquí controlado diseñado para proporcionar una precisión justo sin un uso excesivo de fortuna. Sin incautación, puede ajustar el tamaño del maniquí, especificar el idioma o modificar el comportamiento de salida según su flujo de trabajo.

Las herramientas autohospedadas te dan control

Hemos normalizado la carga de todo a la infraestructura de otra persona. Las notas, grabaciones, documentos y conversaciones a menudo pasan por varios sistemas de terceros antiguamente de que nos demos cuenta. Evitar esto por completo puede no ser realista, especialmente si depende de las principales plataformas en la abundancia para otras partes de su flujo de trabajo. Pero la transcripción no tiene por qué ser uno de esos compromisos.

Una foto del panel de Home Assistant con tarjetas personalizadas

Configuré el canal de voz valentísimo en Home Assistant y así es como lo hice

Con complementos personalizados disponibles de forma gratuita, Home Assistant me brinda el poder de controlar todo mi canal de voz.

Related Posts

Respuestas del mini crucigrama del NYT de hoy para el 9 de marzo

Buscando el mas flamante ¿Respuesta del mini crucigrama? Haga clic aquí para obtener las sugerencias de mini crucigramas de hoy, así como nuestras respuestas y sugerencias diarias para los acertijos…

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

Bienvenido a nuestro postrer esquema de lo que está sucediendo en el espacio de los juegos independientes. Tenemos muchos juegos nuevos y próximos para destacar esta semana, y estos se…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

“Todo se fue debajo”: Jennifer Taveras, sobreviviente del Jet Set – Remolacha

“Todo se fue debajo”: Jennifer Taveras, sobreviviente del Jet Set – Remolacha

Respuestas del mini crucigrama del NYT de hoy para el 9 de marzo

Respuestas del mini crucigrama del NYT de hoy para el 9 de marzo

ProDominicana: “Hay mucha confianza de los mercados en el país”

ProDominicana: “Hay mucha confianza de los mercados en el país”

Más de 500,000 desplazados registrados en Líbano

Más de 500,000 desplazados registrados en Líbano

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

TechCrunch Mobility: la táctica R2 de Rivian

TechCrunch Mobility: la táctica R2 de Rivian