No disfruto escribir largas grabaciones de voz, ya sea un fragmento de una entrevista, un breviario de una reunión o una idea aproximada que dicté mientras caminaba. Convertir manualmente audio en texto es moroso y absolutamente nadie debería hacerlo en el gran año 2026. Hay muchas herramientas de transcripción de IA que resuelven ese problema, pero introducen otro. Sus grabaciones se cargan, procesan y almacenan en una infraestructura que usted no controla. Por mucho que no me guste escribir notas de voz, prefiero no compartirlas con cualquiera. En extensión de necesitar de esos servicios, administro Whisper localmente. Es un maniquí de agradecimiento de voz de código rajado emprendedor en 2022 bajo la osadía del MIT y le permite transcribir audio completamente sin conexión.
Este complemento regalado de Obsidian convierte mi voz en notas y todo se ejecuta en mi computadora
Al utilizar el complemento Whisper con su LLM circunscrito, uso Obsidian para transcribir mis notas de voz y archivos de audio a texto en mi computadora.
¿Por qué uso Whisper?
Se ejecuta localmente y es de código rajado.
Whisper se entrenó con 680.000 horas de audio multilingüe y funciona muy acertadamente con acentos, ruido de fondo y conversaciones en varios idiomas. Es una de las pocas herramientas de OpenAI que está en realidad abierta, lo que significa que puede descargarse y ejecutarse en su propia máquina. Eso asimismo significa que sus archivos de audio nunca salen de su dispositivo y no necesita crear una cuenta. Diablos, ni siquiera tiene una GUI. Simplemente ejecútelo en la terminal.
Herramientas como Otter.ai y Fireflies.ai requieren que cargues grabaciones en sus servidores para su procesamiento. Incluso si ofrecen garantías de enigmático y cumplimiento, usted sigue confiando en sistemas que no puede auditar usted mismo. La ejecución de Whisper localmente elimina por completo esa capa de dependencia.
Ahora que he mencionado esas herramientas, aquí está mi problema sobre cuán intrusivas pueden ser. Cuando alguno los agrega a una reunión, a menudo obtienen paso a los detalles de los participantes y comienzan a mandar correos electrónicos de seguimiento, resúmenes y recordatorios a los que no todos se registraron explícitamente. Es posible que usted mismo no haya invitado la útil, pero aún así termina en el interior de su flujo de trabajo. Encima de eso, ambas empresas se han enfrentado a un indagación en el pasado por cuestiones de privacidad y manejo de datos, lo que hace que todo el acuerdo sea más difícil de ignorar.
Volviendo a Whisper, admite 99 idiomas y puede detectar automáticamente qué idioma se deje. Asimismo puede traducir el deje a otro idioma durante la transcripción. Muchas herramientas en la abundancia se centran principalmente en el inglés, pero Whisper maneja audio multilingüe sin configuración adicional.
Técnicamente, Whisper utiliza una cimentación de red neuronal basada en Transformer y está arreglado en varios tamaños de maniquí. Los modelos más pequeños son livianos y rápidos, mientras que el maniquí más ínclito, que contiene cerca de de 1,5 mil millones de parámetros, ofrece longevo precisión pero requiere significativamente más memoria y fortuna de GPU. Asimismo hay variantes solo en inglés que funcionan sutilmente mejor con audio en inglés en comparación con las versiones multilingües. Puede nominar el maniquí que se adapte a su hardware y a sus evacuación de precisión.
Configurar Whisper localmente en una PC
Es más simple de lo que parece.
La ejecución circunscrito de Whisper requiere cierta configuración, pero es manejable. Hexaedro que se distribuye como una biblioteca de Python, necesita Python y pip instalados en su sistema. Una vez que esté implementado, puede instalar Whisper directamente desde su repositorio de GitHub usando:
pip install git+https://github.com/openai/whisper.git
Whisper asimismo depende de FFmpeg para manejar formatos de audio y video. En Debian o Ubuntu, puedes instalarlo con:
sudo apt update && sudo apt install ffmpeg
En macOS, Homebrew lo hace sencillo con brew install ffmpeg. Los usuarios de Windows pueden instalarlo usando Chocolatey con choco install ffmpeg, suponiendo que Chocolatey ya esté configurado.
Luego de la instalación, la transcripción de un archivo se realiza directamente desde la partidura de comando. Navegue hasta la carpeta que contiene su vídeo y ejecute:
whisper --model cojín --language en --task transcribe your_audio_file.mp3
Reemplace el nombre del archivo con su archivo de audio verdadero. Whisper procesa la vídeo localmente y genera una transcripción guardada en su máquina. Si prefiere usarlo en un script de Python, puede cargar el maniquí y clamar a model.transcribe() en el archivo mediante programación.
Vale la pena señalar que los modelos más grandes exigen más potencia de procesamiento y memoria. Si su sistema no tiene una GPU capaz, los modelos más pequeños como el principal o el pequeño ofrecen un invariabilidad práctico entre velocidad y precisión.
Una vez instalado, Whisper admite una amplia gradación de formatos, incluidos WAV, MP3, M4A, FLAC e incluso archivos de vídeo como MP4 o MKV. Gracias a su integración con FFmpeg, no es necesario extraer el audio manualmente de los archivos de vídeo antiguamente de procesarlos.
Cuando ejecuta el comando de transcripción, Whisper muestra el progreso en la terminal y genera segmentos de texto con marcas de tiempo. Una vez completada, la transcripción se escolta localmente en formatos como TXT o SRT, según su configuración.
De forma predeterminada, utiliza un maniquí controlado diseñado para proporcionar una precisión justo sin un uso excesivo de fortuna. Sin incautación, puede ajustar el tamaño del maniquí, especificar el idioma o modificar el comportamiento de salida según su flujo de trabajo.
Las herramientas autohospedadas te dan control
Hemos normalizado la carga de todo a la infraestructura de otra persona. Las notas, grabaciones, documentos y conversaciones a menudo pasan por varios sistemas de terceros antiguamente de que nos demos cuenta. Evitar esto por completo puede no ser realista, especialmente si depende de las principales plataformas en la abundancia para otras partes de su flujo de trabajo. Pero la transcripción no tiene por qué ser uno de esos compromisos.
Configuré el canal de voz valentísimo en Home Assistant y así es como lo hice
Con complementos personalizados disponibles de forma gratuita, Home Assistant me brinda el poder de controlar todo mi canal de voz.





