Tutoriales

Aloja tu propio Internet Archive con ArchiveBox

Este tutorial explica ¿Qué es una caja de archivo? y cómo Instalar cuadro de archivo En Linux, finalmente cómo Aloja tu propio archivo de Internet personal con ArchiveBox.

Descargo de responsabilidad: Toda la información proporcionada aquí es solo para fines educativos. Ni el autor ni el equipo de OSTechNix son responsables de los daños causados ​​al sitio de destino, como el abuso del ancho de banda o la descarga de contenido ilegal protegido por derechos de autor.

introducir

Esto La máquina de rastreo de Internet Archive (IAWM) es el archivo web público más grande y antiguo.

En el momento de escribir este artículo, Internet Archive Wayback Machine (archivo.org) ha capturado más de 778 mil millones de páginas web y almacena aproximadamente petabytes de datos.

La mayoría de los usuarios vienen a Archive.org porque no pueden encontrar la página que solicitan en la web en vivo. Alrededor del 65% de las páginas de archivo solicitadas ya no existen en la web activa. Gracias a Archive.org, aún podemos acceder y ver sitios web antiguos y desaparecidos.

Si bien archive.org es muy capaz de almacenar una gran cantidad de recursos web, es posible que desee alojar sus propios archivos personales y privados de Internet en sus propios servidores.Aquí es donde caja de archivo Entra y ayuda.

¿Qué es una caja de archivo?

caja de archivo es una potente solución de archivo de Internet gratuita, de código abierto para recopilar, guardar sus sitios web favoritos y verlos o leerlos sin conexión.

Puede asignarle una sola URL u organizar la importación desde los marcadores de su navegador, el historial del navegador, texto sin formato, HTML, descuento, fuentes como RSS, servicios de marcadores como Pocket/Pinboard, ¡y más!

ArchiveBox guarda una instantánea de una URL determinada en múltiples formatos de salida, como HTML, JSON, PDF, capturas de pantalla PNG, WARC y más.

De forma predeterminada, ArchiveBox almacena todas las páginas capturadas en archive.org por redundancia, pero puede desactivarlo si desea un modo de caché local únicamente.

ArchiveBox está disponible como herramienta de línea de comandos, aplicación web y aplicación de escritorio. Es multiplataforma y soporta GNU/Linux, macOS y Windows. ArchiveBox escribe en Pitón El código fuente está disponible en GitHub.

Instalar ArchiveBox en Linux

ArchiveBox se puede instalar de varias maneras diferentes. Podemos instalar ArchiveBox usando Docker, Docker-compose y un script de instalación automatizado.

Primero asegúrese de haber instalado Peón y Docker-compose como se muestra en cualquiera de los enlaces a continuación.

Instale ArchiveBox con Docker-compose

La forma oficialmente recomendada de instalar ArchiveBox es usar Docker-compose.

Después de instalar Docker-compose, cree un directorio para ArchiveBox y descargue docker-compose.yml El archivo está dentro:

$ mkdir ~/archivebox && cd ~/archivebox
$ curl -O 'https://raw.githubusercontent.com/ArchiveBox/ArchiveBox/master/docker-compose.yml'

Ejecute la configuración inicial y cree un usuario administrador ejecutando:

$ docker-compose run archivebox init --setup

Finalmente, inicie el servidor ArchiveBox con el comando:

$ docker-compose up

Ahora puede iniciar sesión en ArchiveBox Admin Web UI Dashboard desde URL .

Iniciar sesión en la interfaz de usuario web es completamente opcional. También puede hacer todo desde la línea de comandos.

Instalar ArchiveBox usando Docker

Después de instalar Docker, cree un directorio para ArchiveBox y descargue docker-compose.yml El archivo está dentro:

$ mkdir ~/archivebox && cd ~/archivebox
$ docker run -v $PWD:/data -it archivebox/archivebox init --setup

Ejecute la configuración inicial y cree un usuario administrador ejecutando:

$ docker-compose run archivebox init --setup

Finalmente, inicie la instancia de ArchiveBox Docker con el comando:

$ docker run -v $PWD:/data -p 8000:8000 archivebox/archivebox

Ahora puede iniciar sesión en ArchiveBox Admin Web UI Dashboard desde URL .

Iniciar sesión en la interfaz de usuario web es completamente opcional. También puede hacer todo desde la línea de comandos.

Instale ArchiveBox utilizando un script de instalación automatizado

Primero, instale Docker. Es opcional, pero recomendable.

Ejecute el script de instalación automatizado con el comando:

$ curl -sSL ' | sh

Esto agregará automáticamente el repositorio de ArchiveBox e instalará ArchiveBox con todas las dependencias necesarias.

ArchiveBox se instalará en un directorio llamado «archivebox» en el directorio de trabajo actual.

Cd en el directorio de archivebox e inicialícelo con el comando:

$ cd ~/archivebox
$ archivebox init --setup

Se le pedirá que cree un nuevo usuario administrador para la interfaz de usuario web.

[...]
[+] Creating new admin user for the Web UI...
Username (leave blank to use 'ostechnix'): 
Email address: 
Password: 
Password (again): 
This password is too short. It must contain at least 8 characters.
Bypass password validation and create user anyway? [y/N]: y
Superuser created successfully.
[...]
Inicializar el cuadro de archivo

Finalmente, inicie el servidor ArchiveBox con el comando:

$ archivebox server 0.0.0.0:8000

Instale ArchiveBox usando PiP

Instale Python versión 3.7 o más reciente y Node versión 14 o superior como se muestra en los enlaces a continuación.

Instale ArchiveBox usando pip3:

$ pip3 install archivebox

Cree un directorio para ArchiveBox e inicialícelo con el comando:

$ mkdir ~/archivebox && cd ~/archivebox
$ archivebox init --setup

Finalmente, inicie el servidor ArchiveBox con el comando:

$ archivebox server 0.0.0.0:8000

Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL .

Instale ArchiveBox desde el repositorio de Apt

Si decide instalar ArchiveBox desde el repositorio, no necesita Docker ni Docker-compose.

Primero agregue el repositorio ArchiveBox.

En Ubuntu 20.04:

$ sudo apt install software-properties-common
$ sudo add-apt-repository -u ppa:archivebox/archivebox

En Ubuntu 22/10 y más reciente, y Ubuntu 19.10 y anterior, y otros sistemas basados ​​en Debian:

$ echo "deb  focal main" | sudo tee /etc/apt/sources.list.d/archivebox.list
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys C258F79DCC02E369
$ sudo apt update

Después de agregar el repositorio relevante, instale ArchiveBox en sistemas basados ​​en Ubuntu y Debian usando el comando:

$ sudo apt install archivebox

Apt solo proporciona versiones antiguas rotas de Django, por lo que debemos instalar ArchiveBox usando imagen en imagen Lo mismo ocurre con los administradores de paquetes.

$ sudo python3 -m pip install --upgrade --ignore-installed archivebox

Cree un directorio para ArchiveBox e inicialícelo:

$ mkdir ~/archivebox && cd ~/archivebox
$ archivebox init --setup

Finalmente, inicie el servidor ArchiveBox con el comando:

$ archivebox server 0.0.0.0:8000

Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL .

Para verificar la versión de ArchiveBox, ejecute:

$ archivebox --version

Para ver la sección de ayuda de ArchiveBox, ejecute:

$ archivebox help

¿Cómo archivar un sitio web con ArchiveBox?

ArchiveBox se puede utilizar para archivar direcciones URL desde la línea de comandos o a través de su WebUI.

Para archivar una sola URL desde la línea de comando, simplemente pásela como argumento, así:

archivebox add 

o,

echo  | archivebox add

ejemplo:

$ archivebox add 
Archivar sitios web con ArchiveBox
Archivar sitios web con ArchiveBox

Para archivar una lista de URL de un archivo de texto, ejecute:

$ archivebox add < archive_urls.txt

o,

$ cat archive_urls.txt.txt | archivebox add

o,

$ archivebox add ~/Downloads/browser_bookmarks.html

o,

$ archivebox add ~/Downloads/pinboard_bookmarks.json

o,

$ curl  | archivebox add

También puedes agregar --depth=1 Descargue URL recursivamente y todas las URL más allá de un salto para cualquiera de los comandos anteriores.

$ archivebox add --depth=1 < ~/Downloads/bookmarks_export.html

Después de archivar una URL, puede usar el comando para ver información y estadísticas sobre la colección archivada:

$ archivebox status

Este comando escaneará directorios de datos archivados y mostrará enlaces de índice, enlaces de índice archivados o no archivados y directorios presentes en la carpeta de archivo.

Imprimir estadísticas de colección de archivo
Imprimir estadísticas de colección de archivo

También puede enumerar los directorios de datos vinculados por estado (por ejemplo, indexado, dañado, archivado, etc.) usando el siguiente comando:

archivebox list --status= 

Por ejemplo, para enumerar todos los directorios de datos de archivo, ejecute:

$ archivebox list --status=archived

Salida de ejemplo:

[i] [2023-01-05 12:11:06] ArchiveBox v0.6.2: archivebox list --status=archived
    > /home/ostechnix/archivebox

/home/ostechnix/archivebox/archive/1672909053.266666  "GitHub - ArchiveBox/ArchiveBox: 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more..."

Como puede ver en el resultado anterior, he archivado el repositorio de ArchiveBox GitHub.

Puede ver más el contenido de descarga de esta carpeta de archivo con ls Ordenar:

$ ls /home/ostechnix/archivebox/archive/1672909053.266666/
avatars.githubusercontent.com  git                      headers.json  media                      readability
camo.githubusercontent.com     github.com               index.html    mercury                    user-images.githubusercontent.com
favicon.ico                    github.githubassets.com  index.json    raw.githubusercontent.com  warc

Guardar el archivo en un nuevo directorio

Como se mencionó en los pasos de instalación anteriores, almacenamos el archivo en ~/archivebox Tabla de contenido. También puede crear un nuevo directorio en otro lugar e inicializarlo para almacenar la colección de archivos.

$ mkdir my_new_archive; cd my_new_archive/
$ archivebox init

Ahora comience a archivar URL como se describe en la sección anterior.

De esta manera, puede crear diferentes colecciones de archivos y almacenarlos en diferentes directorios.

Acceda a la interfaz de usuario web de ArchiveBox

Para acceder a la interfaz de usuario web de administración de ArchiveBox, primero inicie el servidor de ArchiveBox con el siguiente comando:

$ archivebox server 0.0.0.0:8000

Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL o http://dirección IP:8000.

Acceda a la interfaz de usuario web de ArchiveBox
Acceda a la interfaz de usuario web de ArchiveBox

Como puede ver, he archivado el repositorio oficial de ArchiveBox en GitHub. Simplemente haga clic en el archivo para abrirlo.

Verá el archivo guardado en diferentes formatos de salida. Simplemente haga clic en cualquier formato de salida para abrir el archivo correspondiente. Hago clic en el vínculo Wget > HTML y ArchiveBox muestra el contenido del archivo en la misma ventana. También puede abrirlo en una nueva pestaña o ventana del navegador.

abrir documento
abrir documento

Ahora puede leer direcciones URL sin conexión. Este archivo permanecerá en su sistema local hasta que lo elimine.

Para detener el servidor ArchiveBox, regrese a la ventana de la terminal donde se inició y presione CTRL+C.

añadir nuevo archivo

hacer clic Iniciar sesión Botones en la interfaz de usuario web. Inicie sesión con el nombre de usuario y la contraseña que creó cuando inicializó ArchiveBox en los pasos anteriores. Consulte la sección de instalación para aprender cómo inicializar ArchiveBox.

Iniciar sesión en ArchiveBox WebUI
Iniciar sesión en ArchiveBox WebUI

Ten cuidado: Tenga en cuenta que el usuario administrador se crea cuando inicializa ArchiveBox. Si por alguna razón no se creó, cd en su carpeta de archivo, luego ejecute este comando para crear un usuario administrador y establecer una contraseña para él.

$ archivebox manage createsuperuser

hacer clic añadir e ingrese las URL que desea archivar una por una.Seleccione el formato de URL, la profundidad del archivo (por ejemplo, 0 o 1) y haga clic en "Agregar URL y archivar" botón.

Ahora comenzará el proceso de archivo.

Archivar sitios web a través de ArchiveBox WebUI
Archivar sitios web a través de ArchiveBox WebUI

Es seguro salir o cerrar esta página ya que el proceso de archivado continuará en segundo plano.

Después de archivar la URL, vaya a INSTANTÁNEAS para ver una lista de páginas archivadas.

Ver instantáneas de archivo en ArchiveBox WebUI
Ver instantáneas de archivo en ArchiveBox WebUI

En conclusión

ArchiveBox es una solución perfecta y prometedora para autohospedar su propio archivo de Internet personal para guardar páginas web antes de que se editen o eliminen por completo.

Exijo a los usuarios que utilicen el servicio de manera justa y legal. No lo use para abusar del ancho de banda, raspar los sitios de la competencia o descargar contenido ilegal con derechos de autor.

recurso:

LEER  Automatización de la infraestructura de Red Teaming 2021

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba