Waybackdownloader是一種CLI工具,用於從Wayback機器下載網站所有頁面的最新副本。
從源構建,或從版本頁面下載它。
要以最簡單的形式使用該工具,請使用以下命令:
WaybackDownloader.exe " www.example.com " " ./example "在此命令中, www.example.com是要下載的網站, ./example是將存儲下載的頁面的目錄。
Wayback Downloader使用日誌存儲有關已下載的網頁的信息。默認情況下,在“/下載史”下的當前工作目錄中創建了一個文件夾。要指定自定義路徑,請使用--historyLogDir選項。
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder使用-m或--matchType選項指定匹配類型。默認值是“確切的”。其他可能的值包括“前綴”,“域”和“主機”。
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix matchType選項確定瞭如何與Wayback機器中的URL匹配。以example.com為例:
| 匹配類型 | 描述 | 命令 |
|---|---|---|
exact (默認) | 返回結果與example.com匹配 | WaybackDownloader.exe example.com outputDir -m exact |
prefix | 在路徑example.com下的所有結果的返回結果 | WaybackDownloader.exe example.com outputDir -m prefix |
host | 從主機example.com返回結果 | WaybackDownloader.exe example.com outputDir -m host |
domain | 返回來自主機example.com和所有子主持的結果*.example.com | WaybackDownloader.exe example.com outputDir -m domain |
使用--from和--to選項定義時間範圍。時間戳應遵循Wayback機器格式yyyyMMddHHmmss 。指定時間戳時,必須至少指定4位年份。
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231使用-f或--filters選項應用過濾器。默認過濾器是“狀態代碼:200'和``mimeType:text/html''''。
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302使用-p或--pageFilters選項應用頁面過濾器。一旦下載了一個頁面,只有在此列表中包含一個單詞之一時才將其保存到磁盤。
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2限制使用--limitPages選項處理的頁數。這是對處理的頁面數量的絕對限制,同一頁面的兩個版本將計數兩次。
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100警告
不建議設置高速率限制,因為它可以通過Wayback Machine and Archive.org導致限製或臨時黑名單。
使用-r或--rateLimit選項設置每秒下載的頁數的速率限制。默認值為5。
WaybackDownloader.exe < matchUrl > < outputDir > -r 10使用--clearHistory選項清除先前下載的頁面的歷史記錄。
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory使用-v或--verbose選項啟用詳細記錄。
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10此命令將從'http://example.com'下載頁面,將其保存到'./downloads'目錄,匹配以'http://example.com'開頭的URL,僅下載2020年的頁面,排除具有404個狀態代碼的頁面,僅保存“ Keyword1”或“ Keyword1”或“最大” a a Plate a a Plages和100 apages,並將a Plate a a Plate a a Plate a a Plate a a Plage a ppages as afters a afters of 404''的最大值最高為100 pagess,則只有100 pagess a a的。
然後,只需運行以下命令:
dotnet build