Waybackdownloader是一种CLI工具,用于从Wayback机器下载网站所有页面的最新副本。
从源构建,或从版本页面下载它。
要以最简单的形式使用该工具,请使用以下命令:
WaybackDownloader.exe " www.example.com " " ./example "在此命令中, www.example.com是要下载的网站, ./example是将存储下载的页面的目录。
Wayback Downloader使用日志存储有关已下载的网页的信息。默认情况下,在“/下载史”下的当前工作目录中创建了一个文件夹。要指定自定义路径,请使用--historyLogDir选项。
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder使用-m或--matchType选项指定匹配类型。默认值是“确切的”。其他可能的值包括“前缀”,“域”和“主机”。
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix matchType选项确定了如何与Wayback机器中的URL匹配。以example.com为例:
| 匹配类型 | 描述 | 命令 |
|---|---|---|
exact (默认) | 返回结果与example.com匹配 | WaybackDownloader.exe example.com outputDir -m exact |
prefix | 在路径example.com下的所有结果的返回结果 | WaybackDownloader.exe example.com outputDir -m prefix |
host | 从主机example.com返回结果 | WaybackDownloader.exe example.com outputDir -m host |
domain | 返回来自主机example.com和所有子主持的结果*.example.com | WaybackDownloader.exe example.com outputDir -m domain |
使用--from和--to选项定义时间范围。时间戳应遵循Wayback机器格式yyyyMMddHHmmss 。指定时间戳时,必须至少指定4位年份。
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231使用-f或--filters选项应用过滤器。默认过滤器是“状态代码:200'和``mimeType:text/html''''。
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302使用-p或--pageFilters选项应用页面过滤器。一旦下载了一个页面,只有在此列表中包含一个单词之一时才将其保存到磁盘。
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2限制使用--limitPages选项处理的页数。这是对处理的页面数量的绝对限制,同一页面的两个版本将计数两次。
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100警告
不建议设置高速率限制,因为它可以通过Wayback Machine and Archive.org导致限制或临时黑名单。
使用-r或--rateLimit选项设置每秒下载的页数的速率限制。默认值为5。
WaybackDownloader.exe < matchUrl > < outputDir > -r 10使用--clearHistory选项清除先前下载的页面的历史记录。
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory使用-v或--verbose选项启用详细记录。
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10此命令将从'http://example.com'下载页面,将其保存到'./downloads'目录,匹配以'http://example.com'开头的URL,仅下载2020年的页面,排除具有404个状态代码的页面,仅保存“ Keyword1”或“ Keyword1”或“最大” a a Plate a a Plages和100 apages,并将a Plate a a Plate a a Plate a a Plate a a Plage a ppages as afters a afters of 404''的最大值最高为100 pagess,则只有100 pagess a a的。
然后,只需运行以下命令:
dotnet build