WaybackDownloader下載 - WaybackDownloader源代碼下載

WaybackDownloader

其他類別

v1.0.0

下載

Wayback Machine下載器

Waybackdownloader是一種CLI工具，用於從Wayback機器下載網站所有頁面的最新副本。

安裝

從源構建，或從版本頁面下載它。

基本用法

要以最簡單的形式使用該工具，請使用以下命令：

WaybackDownloader.exe " www.example.com " " ./example "

在此命令中， www.example.com是要下載的網站， ./example是將存儲下載的頁面的目錄。

命令行選項

歷史日誌目錄

Wayback Downloader使用日誌存儲有關已下載的網頁的信息。默認情況下，在“/下載史”下的當前工作目錄中創建了一個文件夾。要指定自定義路徑，請使用--historyLogDir選項。

WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder

匹配類型

使用-m或--matchType選項指定匹配類型。默認值是“確切的”。其他可能的值包括“前綴”，“域”和“主機”。

WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix

matchType選項確定瞭如何與Wayback機器中的URL匹配。以example.com為例：

匹配類型	描述	命令
`exact` （默認）	返回結果與`example.com`匹配	`WaybackDownloader.exe example.com outputDir -m exact`
`prefix`	在路徑`example.com`下的所有結果的返回結果	`WaybackDownloader.exe example.com outputDir -m prefix`
`host`	從主機`example.com`返回結果	`WaybackDownloader.exe example.com outputDir -m host`
`domain`	返回來自主機`example.com`和所有子主持的結果`*.example.com`	`WaybackDownloader.exe example.com outputDir -m domain`

時間範圍

使用--from和--to選項定義時間範圍。時間戳應遵循Wayback機器格式yyyyMMddHHmmss 。指定時間戳時，必須至少指定4位年份。

WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231

過濾器

使用-f或--filters選項應用過濾器。默認過濾器是“狀態代碼：200'和``mimeType：text/html''''。

WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302

頁面過濾器

使用-p或--pageFilters選項應用頁面過濾器。一旦下載了一個頁面，只有在此列表中包含一個單詞之一時才將其保存到磁盤。

WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2

限制頁面

限制使用--limitPages選項處理的頁數。這是對處理的頁面數量的絕對限制，同一頁面的兩個版本將計數兩次。

WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100

費率限制

警告

不建議設置高速率限制，因為它可以通過Wayback Machine and Archive.org導致限製或臨時黑名單。

使用-r或--rateLimit選項設置每秒下載的頁數的速率限制。默認值為5。

WaybackDownloader.exe < matchUrl > < outputDir > -r 10

清晰的歷史

使用--clearHistory選項清除先前下載的頁面的歷史記錄。

WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory

冗長

使用-v或--verbose選項啟用詳細記錄。

WaybackDownloader.exe < matchUrl > < outputDir > -v

高級示例

WaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10

此命令將從'http://example.com'下載頁面，將其保存到'./downloads'目錄，匹配以'http://example.com'開頭的URL，僅下載2020年的頁面，排除具有404個狀態代碼的頁面，僅保存“ Keyword1”或“ Keyword1”或“最大” a a Plate a a Plages和100 apages，並將a Plate a a Plate a a Plate a a Plate a a Plage a ppages as afters a afters of 404''的最大值最高為100 pagess，則只有100 pagess a a的。