Existen infinitas opciones para convertir documentos de un formato a otro, como la función ‘Atesorar como’ en los procesadores de texto o varios conversores en carrera. Además hay una utilidad de código descubierto para el trabajo que he estado usando constantemente: Pandoc.
Pandoc se autodenomina “un conversor de documentos universal”, compatible con docenas de formatos de afectado y tipos de documentos. Puede manejar archivos de Microsoft Word, múltiples variaciones de Markdown, PDF, archivos OpenDocument (utilizados principalmente por LibreOffice), cuadernos Jupyter, afectado MediaWiki, EPUB, presentaciones de PowerPoint, LaTeX y muchos otros formatos. Algunos formatos de archivo sólo se pueden utilizar para importar o exportar, y no en uno y otro sentidos.
Pandoc está arreglado en los administradores de paquetes para muchas distribuciones de Linux, y los propietarios de Mac con Homebrew instalado pueden tómalo con ese repositorio. Si tienes Windows, puedes descargue el instalador del paquete desde el sitio web de Pandoco instálelo con administradores de paquetes como Chocolatey y Winget.
Uso sustancial
Pandoc es una aplicación de carrera de comandos, pero se requieren dos parámetros para la mayoría de las conversiones de documentos. Le das la ruta al archivo de entrada y usas el -o parámetro para indicar dónde desea que se guarde el archivo convertido. A continuación se muestra un ejemplo sustancial para convertir un archivo Markdown a HTML:
pandoc “léame.md” -o “léame.html”
Sobrado simple, ¿verdad? Pandoc intenta detectar los formatos de archivos de entrada y salida automáticamente, por lo que no es necesario definirlos cada vez.
Sin secuestro, hay ocasiones en las que esa comprobación cibernética no funciona; tal vez su archivo Markdown tenga una extensión .TXT, o el archivo de salida no debería tener una extensión de archivo, o poco más. En esos casos, puede delimitar el formato de entrada con -F y el formato de salida con -t como esto:
pandoc “readme.md” -f markdown -t html -o “readme.html”
¿Quizás quieras convertir un archivo de texto amplio al formato EPUB para poder abrirlo en un eReader? Pandoc puede hacer eso:
pandoc “readme.txt” -o “readme_converted.epub”
Es posible que tenga algunos documentos de Word que deban convertirse a HTML, para que las personas sin Word instalado puedan verlos en un navegador. No hay problema, Pandoc puede manejarlo:
pandoc “manual.docx” -o “manual.html”
Ese comando simplemente crea el afectado HTML sustancial para el texto, sin ningún formato de estilo. Si desea que el archivo HTML exportado sea un documento completamente independiente, con márgenes de página responsivos y otras mejoras de legibilidad, puede usar el parámetro -s de esta modo:
pandoc “manual.docx” -s -o “manual.html”
Hay muchas más opciones para Pandoc, como usar una hoja de estilo CSS específica para HTML exportado, formatear bloques de código adentro de documentos, cambiar cómo se convierten las matemáticas a partir de archivos LaTeX y mucho más. El página de demostraciones en el sitio web de Pandoc puede darle una mejor idea de las capacidades de la utensilio.
Pandoc no tiene una opción incorporada para la conversión masiva de archivos, pero puede empaquetarla en un pequeño script Bash o script de PowerShell que itera sobre cada archivo en un directorio. Ese sería un método mucho más rápido para convertir cientos de documentos de Word que cascar cada uno individualmente en Word.
Acelerando mi trabajo
Descubrí Pandoc por primera vez cuando intentaba utilizar el editor de MS-DOS para escribir artículos. Es un editor de texto plano, pero podría escribir Markdown para unir enlaces, encabezados y otros formatos a mi documento. Todavía necesitaba una forma rápida de convertir el texto de Markdown guardado al formato HTML utilizado por mi sistema de papeleo de contenidos (CMS).
Pandoc terminó funcionando perfectamente para esta tarea, aunque tuve que unir el –ascii=efectivo parámetro para que algunos símbolos se muestren correctamente. En ocasión de remitir a un archivo, canalicé la salida al pbcopia comando en macOS, que pega el texto HTML en mi portapapeles.
pandoc “/Users/corbin/Documentos/DOS/MAIN.TXT” -f markdown -t html –ascii=true | pbcopia
Incluí todo ese comando en un llegada directo en mi Mac, así que todo lo que tuve que hacer fue abstenerse el documento, ejecutar el llegada directo y luego pegar el HTML en la paisaje Fuente en el CMS de mi trabajo. Ese intento específico con el Editor MS-DOS no duró mucho, pero lo analizaré nuevamente cuando pruebe con otro editor de texto antiguo.
Ahora mismo, he vuelto a escribir mis artículos en Microsoft Word. Cuando copio mi texto directamente desde Word y lo pego en el CMS de mi trabajo, o en cualquier otro editor de texto enriquecido, incluye todo el formato. Quiero que se conserven mis encabezados, enlaces y otros formatos importantes, pero no la fuente exacta ni el tamaño de fuente guardados en docenas de archivos aleatorios. etiquetas.
Felizmente, Pandoc funciona perfectamente para esta tarea. Creé un breve script que convierte mi documento de dechado a HTML, eliminando los saltos de carrera del archivo llamativo y luego cumplimiento el resultado en mi portapapeles:
pandoc -f docx -t html –ascii=true –extract-media=”$HOME/Desktop/” “$HOME/Documentos/Scratch Pad.docx” –wrap=none | pbcopia
El único problema es que este script está codificado en mi documento del bloc de notas. Para guías y reseñas más largas, normalmente creo un nuevo documento de Word en mi carpeta Borradores. Podría simplemente cascar una terminal para convertirlos cuando fuera necesario, pero los Atajos volvieron al rescate.
Creé un nuevo llegada directo que agrega la opción de menú contextual “Copiar como HTML” a los documentos en el Finder. Cuando se ejecuta, Shortcut pasa la ruta del archivo a Pandoc, que luego pega el HTML convertido en mi portapapeles. Entregado que Pandoc puede detectar automáticamente el formato del archivo, esto funciona para más que solo documentos de Word.
En sumario, Pandoc ha hecho que sea mucho más hacedero y rápido escribir en los editores de texto que quiero sin crear errores de formato ni dolores de cabecera. Además es útil para muchos otros casos de uso de publicación y archivo. La próxima vez que necesites convertir algunos documentos, inténtalo.






