WaybackDownloader下载 - WaybackDownloader源代码下载

WaybackDownloader

其他类别

v1.0.0

下载

Wayback Machine下载器

Waybackdownloader是一种CLI工具，用于从Wayback机器下载网站所有页面的最新副本。

安装

从源构建，或从版本页面下载它。

基本用法

要以最简单的形式使用该工具，请使用以下命令：

WaybackDownloader.exe " www.example.com " " ./example "

在此命令中， www.example.com是要下载的网站， ./example是将存储下载的页面的目录。

命令行选项

历史日志目录

Wayback Downloader使用日志存储有关已下载的网页的信息。默认情况下，在“/下载史”下的当前工作目录中创建了一个文件夹。要指定自定义路径，请使用--historyLogDir选项。

WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder

匹配类型

使用-m或--matchType选项指定匹配类型。默认值是“确切的”。其他可能的值包括“前缀”，“域”和“主机”。

WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix

matchType选项确定了如何与Wayback机器中的URL匹配。以example.com为例：

匹配类型	描述	命令
`exact` （默认）	返回结果与`example.com`匹配	`WaybackDownloader.exe example.com outputDir -m exact`
`prefix`	在路径`example.com`下的所有结果的返回结果	`WaybackDownloader.exe example.com outputDir -m prefix`
`host`	从主机`example.com`返回结果	`WaybackDownloader.exe example.com outputDir -m host`
`domain`	返回来自主机`example.com`和所有子主持的结果`*.example.com`	`WaybackDownloader.exe example.com outputDir -m domain`

时间范围

使用--from和--to选项定义时间范围。时间戳应遵循Wayback机器格式yyyyMMddHHmmss 。指定时间戳时，必须至少指定4位年份。

WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231

过滤器

使用-f或--filters选项应用过滤器。默认过滤器是“状态代码：200'和``mimeType：text/html''''。

WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302

页面过滤器

使用-p或--pageFilters选项应用页面过滤器。一旦下载了一个页面，只有在此列表中包含一个单词之一时才将其保存到磁盘。

WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2

限制页面

限制使用--limitPages选项处理的页数。这是对处理的页面数量的绝对限制，同一页面的两个版本将计数两次。

WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100

费率限制

警告

不建议设置高速率限制，因为它可以通过Wayback Machine and Archive.org导致限制或临时黑名单。

使用-r或--rateLimit选项设置每秒下载的页数的速率限制。默认值为5。

WaybackDownloader.exe < matchUrl > < outputDir > -r 10

清晰的历史

使用--clearHistory选项清除先前下载的页面的历史记录。

WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory

冗长

使用-v或--verbose选项启用详细记录。

WaybackDownloader.exe < matchUrl > < outputDir > -v

高级示例

WaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10

此命令将从'http://example.com'下载页面，将其保存到'./downloads'目录，匹配以'http://example.com'开头的URL，仅下载2020年的页面，排除具有404个状态代码的页面，仅保存“ Keyword1”或“ Keyword1”或“最大” a a Plate a a Plages和100 apages，并将a Plate a a Plate a a Plate a a Plate a a Plage a ppages as afters a afters of 404''的最大值最高为100 pagess，则只有100 pagess a a的。

建筑

先决条件

.NET 8.0 SDK或更高

然后，只需运行以下命令：

 dotnet build

展开

附加信息

版本 v1.0.0
类型其他类别
更新时间 2025-03-30
大小 57.68KB
来自于 Github

WaybackDownloader

Wayback Machine下载器

安装

基本用法

命令行选项

历史日志目录

匹配类型

时间范围

过滤器

页面过滤器

限制页面

费率限制

清晰的历史

冗长

高级示例

建筑

先决条件

Ajax无刷新中文验证码

KesionEDU在线网校系统 v9.0.211110

UrlRewriter .NET v2.0 RC1 (For .Net2.0) 问沫工作室优化版

hcnet

asp.net快速开发框架

dotnet.nvim

chat.petals.dev

GPT Prompt Templates

GPTyped

Ajax无刷新中文验证码

KesionEDU在线网校系统 v9.0.211110

UrlRewriter .NET v2.0 RC1 (For .Net2.0) 问沫工作室优化版

Google Dorks

shepherd

mongo express