metrola mayoría de nosotros usamos el amor y usamos el comando jq. Funciona en sistemas Linux o similares a Unix para extraer datos de documentos JSON. Recientemente encontré htmlq que es como jq y está escrito en rust durante mucho tiempo. Imagínese si pudiera buscar datos HTML sed o grep. Podemos buscar, cortar y filtrar datos HTML con htmlq. Veamos cómo instalar y usar esta práctica herramienta en Linux o Unix, y jugar con datos HTML.
Tabla de Contenidos
¿Qué es una herramienta HTMLq?
Es como jq pero para html. Utiliza selectores CSS para extraer fragmentos de contenido de archivos HTML. En CSS, los selectores se utilizan para apuntar a los elementos HTML en nuestras páginas web que queremos diseñar. Por ejemplo, podemos extraer imágenes u otras URL fácilmente con esta herramienta.
Instale htmlq en Linux o Unix
Para instalar cargo y rustc en Ubuntu o Debian Linux usando el comando apt / apt-get:sudo apt install cargo
Entonces ejecutarías:cargo install htmlq
Guías exclusivas para seguidores de Patreon 🤓
- Sin publicidad ni seguimiento
- Instrucciones detalladas para desarrolladores y administradores de sistemas en Opensourceflare✨
- Únase a mi Patreon para ayudar a los creadores de contenido independientes y lea las guías más recientes:
Instalar macOS Freight
Abra la aplicación Terminal y luego ejecute el comando de puerto como este:sudo port install cargo
O puede instalar Homebrew en macOS para usar Brew Package Manager de la siguiente manera:
brew install rustup # installs both cargo and rustc rustup-init rustc --version
Carga interna de FreeBSD
Voy a usar el comando pkg para instalar rustc así:sudo pkg install rust
Vea cómo instalar Rust para otros sistemas operativos. Ahora que tengo las herramientas rustc y cargo, ingreso el siguiente comando simple para obtener htmlq en mi sistema de desarrollo:cargo install htmlq
Configurando su PATH
Asegúrese de agregar $ HOME / .cargo / bin a su variable PATH para poder ejecutar los binarios instalados con el comando de exportación
# sh/bash/ksh etc export PATH="$PATH:$HOME/.cargo/bin" # tcsh/csh etc setenv PATH $PATH:$HOME/.cargo/bin
Cómo usar htmlq para extraer contenido de archivos HTML en Linux o Unix
Usemos el comando curl para buscar parte de una página por ID:curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.cyberciti.biz/faq/ | htmlq --pretty '#content' | more
Busquemos todos los enlaces en una página. Por ejemplo:
curl -s https://www.nixcraft.com | htmlq --attribute href a
consigue ayuda
Solo corre:htmlq --help
htmlq 0.0.1 Michael Maclean <[email protected]> Runs CSS selectors on HTML USAGE: htmlq [FLAGS] [OPTIONS] <selector>... FLAGS: -h, --help Prints help information -w, --ignore-whitespace When printing text nodes, ignore those that consist entirely of whitespace -p, --pretty Pretty-print the serialised output -t, --text Output only the contents of text nodes inside selected elements -V, --version Prints version information OPTIONS: -a, --attribute <attribute> Only return this attribute (if present) from selected elements -f, --filename <FILE> The input file. Defaults to stdin -o, --output <FILE> The output file. Defaults to stdout ARGS: <selector>... The CSS expression to select
Resumir
El HTMLq es una buena herramienta y realmente lo disfruté. Consulta el código fuente de Github. Pruébelo y déjeme saber qué le gusta de él en la sección de comentarios a continuación.
PUBLICIDAD