Este tutorial explica ¿Qué es una caja de archivo? y cómo Instalar cuadro de archivo En Linux, finalmente cómo Aloja tu propio archivo de Internet personal con ArchiveBox.
Descargo de responsabilidad: Toda la información proporcionada aquí es solo para fines educativos. Ni el autor ni el equipo de OSTechNix son responsables de los daños causados al sitio de destino, como el abuso del ancho de banda o la descarga de contenido ilegal protegido por derechos de autor.
Tabla de Contenidos
introducir
Esto La máquina de rastreo de Internet Archive (IAWM) es el archivo web público más grande y antiguo.
En el momento de escribir este artículo, Internet Archive Wayback Machine (archivo.org) ha capturado más de 778 mil millones de páginas web y almacena aproximadamente petabytes de datos.
La mayoría de los usuarios vienen a Archive.org porque no pueden encontrar la página que solicitan en la web en vivo. Alrededor del 65% de las páginas de archivo solicitadas ya no existen en la web activa. Gracias a Archive.org, aún podemos acceder y ver sitios web antiguos y desaparecidos.
Si bien archive.org es muy capaz de almacenar una gran cantidad de recursos web, es posible que desee alojar sus propios archivos personales y privados de Internet en sus propios servidores.Aquí es donde caja de archivo Entra y ayuda.
¿Qué es una caja de archivo?
caja de archivo es una potente solución de archivo de Internet gratuita, de código abierto para recopilar, guardar sus sitios web favoritos y verlos o leerlos sin conexión.
Puede asignarle una sola URL u organizar la importación desde los marcadores de su navegador, el historial del navegador, texto sin formato, HTML, descuento, fuentes como RSS, servicios de marcadores como Pocket/Pinboard, ¡y más!
ArchiveBox guarda una instantánea de una URL determinada en múltiples formatos de salida, como HTML, JSON, PDF, capturas de pantalla PNG, WARC y más.
De forma predeterminada, ArchiveBox almacena todas las páginas capturadas en archive.org por redundancia, pero puede desactivarlo si desea un modo de caché local únicamente.
ArchiveBox está disponible como herramienta de línea de comandos, aplicación web y aplicación de escritorio. Es multiplataforma y soporta GNU/Linux, macOS y Windows. ArchiveBox escribe en Pitón El código fuente está disponible en GitHub.
Instalar ArchiveBox en Linux
ArchiveBox se puede instalar de varias maneras diferentes. Podemos instalar ArchiveBox usando Docker, Docker-compose y un script de instalación automatizado.
Primero asegúrese de haber instalado Peón y Docker-compose como se muestra en cualquiera de los enlaces a continuación.
Instale ArchiveBox con Docker-compose
La forma oficialmente recomendada de instalar ArchiveBox es usar Docker-compose.
Después de instalar Docker-compose, cree un directorio para ArchiveBox y descargue docker-compose.yml
El archivo está dentro:
$ mkdir ~/archivebox && cd ~/archivebox
$ curl -O 'https://raw.githubusercontent.com/ArchiveBox/ArchiveBox/master/docker-compose.yml'
Ejecute la configuración inicial y cree un usuario administrador ejecutando:
$ docker-compose run archivebox init --setup
Finalmente, inicie el servidor ArchiveBox con el comando:
$ docker-compose up
Ahora puede iniciar sesión en ArchiveBox Admin Web UI Dashboard desde URL .
Iniciar sesión en la interfaz de usuario web es completamente opcional. También puede hacer todo desde la línea de comandos.
Instalar ArchiveBox usando Docker
Después de instalar Docker, cree un directorio para ArchiveBox y descargue docker-compose.yml
El archivo está dentro:
$ mkdir ~/archivebox && cd ~/archivebox
$ docker run -v $PWD:/data -it archivebox/archivebox init --setup
Ejecute la configuración inicial y cree un usuario administrador ejecutando:
$ docker-compose run archivebox init --setup
Finalmente, inicie la instancia de ArchiveBox Docker con el comando:
$ docker run -v $PWD:/data -p 8000:8000 archivebox/archivebox
Ahora puede iniciar sesión en ArchiveBox Admin Web UI Dashboard desde URL .
Iniciar sesión en la interfaz de usuario web es completamente opcional. También puede hacer todo desde la línea de comandos.
Instale ArchiveBox utilizando un script de instalación automatizado
Primero, instale Docker. Es opcional, pero recomendable.
Ejecute el script de instalación automatizado con el comando:
$ curl -sSL ' | sh
Esto agregará automáticamente el repositorio de ArchiveBox e instalará ArchiveBox con todas las dependencias necesarias.
ArchiveBox se instalará en un directorio llamado «archivebox» en el directorio de trabajo actual.
Cd en el directorio de archivebox e inicialícelo con el comando:
$ cd ~/archivebox
$ archivebox init --setup
Se le pedirá que cree un nuevo usuario administrador para la interfaz de usuario web.
[...] [+] Creating new admin user for the Web UI... Username (leave blank to use 'ostechnix'): Email address: Password: Password (again): This password is too short. It must contain at least 8 characters. Bypass password validation and create user anyway? [y/N]: y Superuser created successfully. [...]
Finalmente, inicie el servidor ArchiveBox con el comando:
$ archivebox server 0.0.0.0:8000
Instale ArchiveBox usando PiP
Instale Python versión 3.7 o más reciente y Node versión 14 o superior como se muestra en los enlaces a continuación.
Instale ArchiveBox usando pip3:
$ pip3 install archivebox
Cree un directorio para ArchiveBox e inicialícelo con el comando:
$ mkdir ~/archivebox && cd ~/archivebox
$ archivebox init --setup
Finalmente, inicie el servidor ArchiveBox con el comando:
$ archivebox server 0.0.0.0:8000
Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL .
Instale ArchiveBox desde el repositorio de Apt
Si decide instalar ArchiveBox desde el repositorio, no necesita Docker ni Docker-compose.
Primero agregue el repositorio ArchiveBox.
En Ubuntu 20.04:
$ sudo apt install software-properties-common
$ sudo add-apt-repository -u ppa:archivebox/archivebox
En Ubuntu 22/10 y más reciente, y Ubuntu 19.10 y anterior, y otros sistemas basados en Debian:
$ echo "deb focal main" | sudo tee /etc/apt/sources.list.d/archivebox.list
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys C258F79DCC02E369
$ sudo apt update
Después de agregar el repositorio relevante, instale ArchiveBox en sistemas basados en Ubuntu y Debian usando el comando:
$ sudo apt install archivebox
Apt solo proporciona versiones antiguas rotas de Django, por lo que debemos instalar ArchiveBox usando imagen en imagen Lo mismo ocurre con los administradores de paquetes.
$ sudo python3 -m pip install --upgrade --ignore-installed archivebox
Cree un directorio para ArchiveBox e inicialícelo:
$ mkdir ~/archivebox && cd ~/archivebox
$ archivebox init --setup
Finalmente, inicie el servidor ArchiveBox con el comando:
$ archivebox server 0.0.0.0:8000
Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL .
Para verificar la versión de ArchiveBox, ejecute:
$ archivebox --version
Para ver la sección de ayuda de ArchiveBox, ejecute:
$ archivebox help
¿Cómo archivar un sitio web con ArchiveBox?
ArchiveBox se puede utilizar para archivar direcciones URL desde la línea de comandos o a través de su WebUI.
Para archivar una sola URL desde la línea de comando, simplemente pásela como argumento, así:
archivebox add
o,
echo | archivebox add
ejemplo:
$ archivebox add
Para archivar una lista de URL de un archivo de texto, ejecute:
$ archivebox add < archive_urls.txt
o,
$ cat archive_urls.txt.txt | archivebox add
o,
$ archivebox add ~/Downloads/browser_bookmarks.html
o,
$ archivebox add ~/Downloads/pinboard_bookmarks.json
o,
$ curl | archivebox add
También puedes agregar --depth=1
Descargue URL recursivamente y todas las URL más allá de un salto para cualquiera de los comandos anteriores.
$ archivebox add --depth=1 < ~/Downloads/bookmarks_export.html
Imprimir estadísticas de colección de archivo
Después de archivar una URL, puede usar el comando para ver información y estadísticas sobre la colección archivada:
$ archivebox status
Este comando escaneará directorios de datos archivados y mostrará enlaces de índice, enlaces de índice archivados o no archivados y directorios presentes en la carpeta de archivo.
También puede enumerar los directorios de datos vinculados por estado (por ejemplo, indexado, dañado, archivado, etc.) usando el siguiente comando:
archivebox list --status=
Por ejemplo, para enumerar todos los directorios de datos de archivo, ejecute:
$ archivebox list --status=archived
Salida de ejemplo:
[i] [2023-01-05 12:11:06] ArchiveBox v0.6.2: archivebox list --status=archived > /home/ostechnix/archivebox /home/ostechnix/archivebox/archive/1672909053.266666 "GitHub - ArchiveBox/ArchiveBox: 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more..."
Como puede ver en el resultado anterior, he archivado el repositorio de ArchiveBox GitHub.
Puede ver más el contenido de descarga de esta carpeta de archivo con ls
Ordenar:
$ ls /home/ostechnix/archivebox/archive/1672909053.266666/ avatars.githubusercontent.com git headers.json media readability camo.githubusercontent.com github.com index.html mercury user-images.githubusercontent.com favicon.ico github.githubassets.com index.json raw.githubusercontent.com warc
Guardar el archivo en un nuevo directorio
Como se mencionó en los pasos de instalación anteriores, almacenamos el archivo en ~/archivebox
Tabla de contenido. También puede crear un nuevo directorio en otro lugar e inicializarlo para almacenar la colección de archivos.
$ mkdir my_new_archive; cd my_new_archive/
$ archivebox init
Ahora comience a archivar URL como se describe en la sección anterior.
De esta manera, puede crear diferentes colecciones de archivos y almacenarlos en diferentes directorios.
Acceda a la interfaz de usuario web de ArchiveBox
Para acceder a la interfaz de usuario web de administración de ArchiveBox, primero inicie el servidor de ArchiveBox con el siguiente comando:
$ archivebox server 0.0.0.0:8000
Ahora puede acceder a la interfaz de usuario web de ArchiveBox desde la URL o http://dirección IP:8000.
Como puede ver, he archivado el repositorio oficial de ArchiveBox en GitHub. Simplemente haga clic en el archivo para abrirlo.
Verá el archivo guardado en diferentes formatos de salida. Simplemente haga clic en cualquier formato de salida para abrir el archivo correspondiente. Hago clic en el vínculo Wget > HTML y ArchiveBox muestra el contenido del archivo en la misma ventana. También puede abrirlo en una nueva pestaña o ventana del navegador.
Ahora puede leer direcciones URL sin conexión. Este archivo permanecerá en su sistema local hasta que lo elimine.
Para detener el servidor ArchiveBox, regrese a la ventana de la terminal donde se inició y presione CTRL+C.
añadir nuevo archivo
hacer clic Iniciar sesión Botones en la interfaz de usuario web. Inicie sesión con el nombre de usuario y la contraseña que creó cuando inicializó ArchiveBox en los pasos anteriores. Consulte la sección de instalación para aprender cómo inicializar ArchiveBox.
Ten cuidado: Tenga en cuenta que el usuario administrador se crea cuando inicializa ArchiveBox. Si por alguna razón no se creó, cd en su carpeta de archivo, luego ejecute este comando para crear un usuario administrador y establecer una contraseña para él.
$ archivebox manage createsuperuser
hacer clic añadir e ingrese las URL que desea archivar una por una.Seleccione el formato de URL, la profundidad del archivo (por ejemplo, 0 o 1) y haga clic en "Agregar URL y archivar" botón.
Ahora comenzará el proceso de archivo.
Es seguro salir o cerrar esta página ya que el proceso de archivado continuará en segundo plano.
Después de archivar la URL, vaya a INSTANTÁNEAS para ver una lista de páginas archivadas.
En conclusión
ArchiveBox es una solución perfecta y prometedora para autohospedar su propio archivo de Internet personal para guardar páginas web antes de que se editen o eliminen por completo.
Exijo a los usuarios que utilicen el servicio de manera justa y legal. No lo use para abusar del ancho de banda, raspar los sitios de la competencia o descargar contenido ilegal con derechos de autor.
recurso: