WaybackDownloaderは、WaybackマシンからWebサイトのすべてのページの最新のコピーをダウンロードするためのCLIツールです。
ソースからビルドするか、リリースページからダウンロードしてください。
ツールを最も単純な形式で使用するには、次のコマンドを使用します。
WaybackDownloader.exe " www.example.com " " ./example "このコマンドでは、 www.example.comダウンロードするWebサイトであり、 ./exampleはダウンロードされたページが保存されるディレクトリです。
Wayback Downloaderはログを使用して、すでにダウンロードしているWebページに関する情報を保存します。デフォルトでは、フォルダーは「/downloadhistory」の下の現在の作業ディレクトリに作成されます。カスタムパスを指定するには、 --historyLogDirオプションを使用します。
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder-mまたは--matchTypeオプションを使用して一致タイプを指定します。デフォルト値は「正確」です。他の考えられる値には、「プレフィックス」、「ドメイン」、「ホスト」が含まれます。
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix matchTypeオプションは、WaybackマシンのURLとの一致方法を決定します。例としてexample.comを使用してください:
| マッチタイプ | 説明 | 指示 |
|---|---|---|
exact (デフォルト) | 正確にexample.comに一致する結果を返します | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Path example.comの下ですべての結果の結果を返します | WaybackDownloader.exe example.com outputDir -m prefix |
host | Host example.comから結果を返します | WaybackDownloader.exe example.com outputDir -m host |
domain | host example.comおよびすべてのサブホスト*.example.comの結果を返します | WaybackDownloader.exe example.com outputDir -m domain |
--fromおよび--toオプションを使用して、時間範囲を定義します。タイムスタンプは、Waybackマシン形式yyyyMMddHHmmssに従う必要があります。タイムスタンプを指定するときは、少なくとも4桁の年を指定する必要があります。
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231-fまたは--filtersオプションを使用してフィルターを適用します。デフォルトのフィルターは「ステータスコード:200」と「Mimetype:Text/HTML」です。
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302-pまたは--pageFiltersオプションを使用して、ページフィルターを適用します。ページがダウンロードされると、このリストに単語の1つが含まれている場合にのみディスクに保存されます。
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2--limitPagesオプションを使用して処理されたページ数を制限します。これは、処理されたページ数の絶対的な制限であり、同じページの2つのバージョンが2回カウントされます。
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100警告
Wayback MachineとArchive.orgによるスロットリングまたは一時的なブラックリストにつながる可能性があるため、高いレート制限を設定することは推奨されません。
-rまたは--rateLimitオプションを使用して、1秒間にダウンロードするページ数のレート制限を設定します。デフォルト値は5です。
WaybackDownloader.exe < matchUrl > < outputDir > -r 10--clearHistoryオプションを使用して、以前にダウンロードしたページの履歴をクリアします。
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory-vまたは--verboseオプションを使用してverboseロギングを有効にします。
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10このコマンドは、「http://example.com」からページをダウンロードし、「./downloads」ディレクトリに保存し、「http://example.com」で始まるURLを一致させます。2020年からのページのみをダウンロードします。404ステータスコードのページを除外します。
次に、次のコマンドを実行するだけです。
dotnet build