WaybackDownloader es una herramienta CLI para descargar la última copia de todas las páginas de un sitio web desde Wayback Machine.
Construir desde la fuente o descargarlo desde la página de versiones.
Para usar la herramienta en su forma más simple, use el siguiente comando:
WaybackDownloader.exe " www.example.com " " ./example " En este comando, www.example.com es el sitio web para descargar, y ./example es el directorio donde se almacenarán las páginas descargadas.
El Wayback Downloader utiliza un registro para almacenar información sobre las páginas web que ya ha descargado. Por defecto, se crea una carpeta en el directorio de trabajo actual en "/DownloadHistory". Para especificar una ruta personalizada, use la opción --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder Especifique el tipo de coincidencia usando la opción -m o --matchType . El valor predeterminado es 'exacto'. Otros valores posibles incluyen 'prefijo', 'dominio' y 'host'.
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix La opción matchType determina cómo coincide con las URL en la máquina Wayback. Usando Ejemplo.com como ejemplo:
| Tipo de coincidencia | Descripción | Dominio |
|---|---|---|
exact (predeterminado) | Devuelve los resultados que coinciden exactamente con example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Devuelve los resultados para todos los resultados en la ruta example.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | Devuelve los resultados de host example.com | WaybackDownloader.exe example.com outputDir -m host |
domain | Devuelve los resultados de host example.com y todos los subhosts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
Defina un rango de tiempo utilizando las opciones --from y --to . La marca de tiempo debe seguir el formato Wayback Machine yyyyMMddHHmmss . Se debe especificar al menos un año de 4 dígitos al especificar una marca de tiempo.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 Aplique filtros utilizando la opción -f o --filters . Los filtros predeterminados son 'statuscode: 200' y 'mimetype: text/html'.
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 Use la opción -p o --pageFilters para aplicar filtros de página. Una vez que se haya descargado una página, solo se guardará en el disco si contiene una de las palabras en esta lista.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 Limite el número de páginas procesadas utilizando la opción --limitPages . Este es un límite absoluto en el número de páginas procesadas, dos versiones de la misma página contarán dos veces.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100Advertencia
No se recomienda establecer un límite de velocidad alta, ya que puede conducir a una lista negra temporal o una lista negra temporal por la máquina Wayback y Archive.org.
Establezca el límite de velocidad para el número de páginas para descargar por segundo usando la opción -r o --rateLimit . El valor predeterminado es 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 Borre el historial de páginas anteriormente descargadas utilizando la opción --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory Habilite el registro verboso utilizando la opción -v o --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10Este comando descargará páginas de 'http://example.com', guárdelas en el directorio './downloads', coincidirá con URL que comienzan con 'http://example.com', solo descargue páginas del año 2020, excluya las páginas con un código de estado 404, solo guarden las páginas que contienen 'Palabra clave1' o 'Keyword2', procesen un máximo de 100 páginas, y descargue un máximo de 10 páginas de 10 páginas.
Luego, simplemente ejecute el siguiente comando:
dotnet build