
En un artículo anterior, cubrí el proceso de conversión por lotes de un puñado de archivos Markdown a HTML usando pandoc. En este artículo se crearon varios archivos HTML, pero pandoc puede hacer mucho más. Se le ha llamado «la navaja suiza» de la conversión de documentos, y por una buena razón. No hay mucho que no pueda hacer.
Pandoc puede convertir .docx, .odt, .html, .epub, LaTeX, DocBook, etc.a estos y otros formatos como JATS, TEI Simple, AsciiDoc y más.
Sí, eso significa que pandoc puede convertir archivos .docx a .pdf y .html, pero podría estar pensando, “Word también puede exportar archivos a .pdf y .html. ¿Por qué debería necesitar Pandoc? «
Tendría un buen punto, pero dado que pandoc puede convertir tantos formatos, podría convertirse en su herramienta de elección para todas sus tareas de conversión. Por ejemplo, muchos de nosotros sabemos que los editores de Markdown pueden exportar sus archivos de Markdown a .html. Pandoc también puede convertir archivos Markdown a muchos otros formatos.
Rara vez exporto Markdown a HTML; Normalmente hago que Pandoc lo haga.
Conversión de formatos de archivo con Pandoc
Aquí voy a convertir archivos Markdown a varios formatos. Escribo casi todo en la sintaxis de Markdown, pero a menudo tengo que convertir a otro formato: los archivos .docx se usan generalmente para el trabajo escolar, .html para las páginas web que creo, y para el trabajo .epub, .pdf para folletos y folletos y ocasionalmente incluso un archivo TEI Simple para un proyecto universitario de humanidades digitales. Pandoc puede manejar todo esto y más con facilidad.
Primero necesitas instalar pandoc. También se requiere LaTeX para crear archivos .pdf. El paquete que prefiero es TeX Live.
Nota: Si desea probar pandoc antes de instalarlo, hay una página de prueba en línea en: http://pandoc.org/try/
Instala Pandoc y texlive
Los usuarios de Ubuntu y otras distribuciones de Debian pueden escribir los siguientes comandos en la terminal:
sudo apt-get update
sudo apt-get install pandoc texlive
Observe en la segunda línea que está instalando pandoc y texlive al mismo tiempo. El comando apt-get no tendrá ningún problema con eso, pero ve a tomar un café; Esto puede tardar unos minutos.
Llega a la conversión
Una vez que pandoc y texlive estén instalados, ¡queda algo de trabajo por hacer!
El documento de muestra para este proyecto será un artículo publicado por primera vez en el Revisión de América del Norte en diciembre de 1894 y se titula: «Cómo ahuyentar a los ladrones de trenes». El archivo de rebajas que usaré se creó hace algún tiempo como parte de un proyecto de restauración.
El archivo: how_to_repel_train_robbers.md
está en mi directorio de Documentos, en un subdirectorio llamado Samples. Así es como se ve en los escritores fantasmas.
Quiero crear versiones .docx, .pdf y .html de este archivo.
La primera conversión
Comenzaré haciendo una copia .pdf primero, ya que me tomé la molestia de instalar un paquete LaTeX.
En el directorio ~ / Documents / samples /, ingresaré lo siguiente para crear un archivo .pdf:
pandoc -o htrtr.pdf how_to_repel_train_robbers.md
El comando anterior crea un archivo llamado htrtr.pdf del archivo how_to_repel_train_robbers.md. La razón por la que usé htrtr como nombre fue porque es más corto que how_to_repel_train_robbers: htrtr es la primera letra de cada palabra en el título largo.
Aquí hay una instantánea del archivo .pdf una vez que se creó:
La segunda conversión
A continuación, quiero crear un archivo .docx. El comando es casi idéntico al que usé para crear el PDF y es:
pandoc -o htrtr.docx how_to_repel_train_robbers.md
Se crea un archivo .docx en poco tiempo. Así es como se ve en Libre Writer:
La tercera conversión
Es posible que desee publicar esto en la web para que un sitio web sea bueno. Estoy creando un archivo .html con este comando:
pandoc -o htrtr.html how_to_repel_train_robbers.md
Nuevamente, el comando de compilación es muy similar a las dos últimas conversiones. Así es como se ve el archivo .html en un navegador:
¿Ya has notado algo?
Veamos de nuevo los comandos anteriores. Usted está:
pandoc -o htrtr.pdf how_to_repel_train_robbers.md
pandoc -o htrtr.docx how_to_repel_train_robbers.md
pandoc -o htrtr.html how_to_repel_train_robbers.md
La única diferencia con estos tres comandos es la extensión junto a htrtr. Esto le da una indicación de que pandoc se basa en la extensión del nombre de archivo de salida que especificó.
Conclusión
Pandoc puede hacer mucho más que las tres pequeñas modificaciones aquí. Si escribe en un formato preferido pero necesita convertir el archivo a un formato diferente, es probable que pandoc pueda hacerlo por usted.
¿Qué harías con eso? ¿Automatizarías eso? ¿Qué pasaría si tuvieras un sitio web del que tus lectores pudieran descargar artículos? Puede modificar estos pequeños comandos para que funcionen como un script y sus lectores pueden decidir qué formato quieren. Puede ofrecer .docx, .pdf, .odt, .epub o más. Sus lectores eligen, se ejecuta el script de conversión correcto y sus lectores descargan su archivo. Se puede hacer.