WaybackDownloader é uma ferramenta da CLI para baixar a cópia mais recente de todas as páginas de um site da Wayback Machine.
Construa a partir da fonte ou faça o download da página de lançamentos.
Para usar a ferramenta em sua forma mais simples, use o seguinte comando:
WaybackDownloader.exe " www.example.com " " ./example " Neste comando, www.example.com é o site a ser baixado e ./example é o diretório em que as páginas baixadas serão armazenadas.
O Wayback Downloader usa um log para armazenar informações sobre as páginas da web que já baixou. Por padrão, uma pasta é criada no diretório de trabalho atual em "/downloadhistory". Para especificar um caminho personalizado, use a opção --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder Especifique o tipo de correspondência usando a opção -m ou --matchType . O valor padrão é "exato". Outros valores possíveis incluem 'prefixo', 'domínio' e 'host'.
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix A opção matchType determina como o é comparado com os URLs na máquina Wayback. Usando o exemplo.com como exemplo:
| Tipo de correspondência | Descrição | Comando |
|---|---|---|
exact (padrão) | Retorna resultados correspondentes exatamente example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Retorna os resultados para todos os resultados sob o caminho example.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | Retorna os resultados do host example.com | WaybackDownloader.exe example.com outputDir -m host |
domain | Retorna os resultados do host example.com e todos os subhosts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
Defina um intervalo de tempo usando as opções --from e --to . O registro de data e hora deve seguir o formato da máquina Wayback yyyyMMddHHmmss . Pelo menos um ano de 4 dígitos deve ser especificado ao especificar um registro de data e hora.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 Aplique filtros usando a opção -f ou --filters . Os filtros padrão são 'StatusCode: 200' e 'Mimetype: text/html'.
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 Use a opção -p ou --pageFilters para aplicar filtros de página. Depois que uma página for baixada, ela será salva apenas no disco se contiver uma das palavras nesta lista.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 Limite o número de páginas processadas usando a opção --limitPages . Este é um limite absoluto para o número de páginas processadas, duas versões da mesma página serão contadas duas vezes.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100Aviso
Definir um limite de alta taxa não é recomendado, pois pode levar ao estrangulamento ou na lista negra temporária da máquina Wayback e do arquivo.org.
Defina o limite de taxa para o número de páginas para download por segundo usando a opção -r ou --rateLimit . O valor padrão é 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 Limpe o histórico de páginas baixadas anteriormente usando a opção --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory Ative o log verboso usando a opção -v ou --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10This command will download pages from 'http://example.com', save them to the './downloads' directory, match URLs that start with 'http://example.com', only download pages from the year 2020, exclude pages with a 404 status code, only save pages that contain 'keyword1' or 'keyword2', process a maximum of 100 pages, and download a maximum of 10 pages per second.
Então, basta executar o seguinte comando:
dotnet build