Tutoriales

Utensilio de matanza de duplicados de URL para una mejor reconstrucción

UDdup La útil obtiene una índice de URL y elimina páginas «duplicadas» en el sentido de patrones de URL que probablemente son repetitivos y apuntan a la misma plantilla web.

Por ejemplo:

https://www.example.com/product/123
https://www.example.com/product/456
https://www.example.com/product/123?is_prod=false https://www.example.com/product/222?is_debug=true

Todos los anteriores son probablemente puntos para la misma «plantilla» de producto. Por lo tanto, debería ser suficiente escanear solo algunas de estas URL con nuestros diversos escáneres.

El resultado de lo precursor luego de UDdup debería ser:

https://www.example.com/product/123?is_prod=false https://www.example.com/product/222?is_debug=true

¿Por qué lo necesito?

Principalmente para un mejor proceso de inspección (automatizado), con menos ruido (tanto para el probador como para el objetivo).

Ejemplos

Echa un vistazo a demo.txt que es el archivo de URL sin procesar que da como resultado demo-results.txt.

Instalación

pip instalar uddup

Clona el repositorio.
clon de git https://github.com/rotemreiss/uddup.git

Instale los requisitos de Python.
cd uddup
pip install -r requirements.txt

Uso

uddup -u demo.txt -o ./demo-result.txt

uddup -h

Forma cortaForma largaDescripción
-h-ayudaMuestre este mensaje de ayuda y salga
-u–UrlsArchivo con una índice de URL
-o-producciónEconomizar resultados en un archivo
-s-silencioImprime solo las URL de resultados
-fp–Trayecto-de-filtroFiltrar rutas por una expresión regular determinada

Permite filtrar patrones de rutas personalizados. Por ejemplo, si quisiéramos filtrar todas las rutas que comienzan con /product tendremos que ejecutar:

Regex único
uddup -u demo.txt -fp “^ producto”

https://www.example.com/
https://www.example.com/privacy-policy
https://www.example.com/product/1
https://www.example2.com/product/2 https://www.example3.com/product/4

https://www.example.com/
https://www.example.com/privacy-policy

  • Regex liberal con múltiples filtros de ruta

uddup -u demo.txt -fp «(^ producto) | (^ categoría)»

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba