Waybackdownloader - это инструмент CLI для загрузки последней копии всех страниц веб -сайта с машины Wayback.
Создайте из источника или загрузите его со страницы релизов.
Чтобы использовать инструмент в его простейшей форме, используйте следующую команду:
WaybackDownloader.exe " www.example.com " " ./example " В этой команде www.example.com - это веб -сайт для загрузки, а ./example - это каталог, в котором будут сохранены загруженные страницы.
The Wayback Downloader использует журнал для хранения информации о веб -страницах, которые он уже загрузил. По умолчанию папка создается в текущем рабочем каталоге в разделе «/Downloadhistory». Чтобы указать пользовательский путь, используйте опцию --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder Укажите тип совпадения, используя опцию -m или --matchType . Значение по умолчанию «точное». Другие возможные значения включают «префикс», «домен» и «хост».
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix Опция matchType определяет, как это сопоставлено с URL -адресами на машине Wayback. Используя пример. В качестве примера:
| Тип соответствия | Описание | Командование |
|---|---|---|
exact (по умолчанию) | Возвращает результаты, соответствующие example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Возвращает результаты для всех результатов в рамках Path example.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | Возвращает результаты от Host example.com | WaybackDownloader.exe example.com outputDir -m host |
domain | Возвращает результаты от host example.com и всех subhosts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
Определите диапазон времени, используя параметры --from и --to . Неэппаратная метка должна следовать формату Wayback Machine yyyyMMddHHmmss . По крайней мере, 4-значный год должен быть указан при указании временной метки.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 Примените фильтры, используя опцию -f или --filters . Фильтры по умолчанию - «Статус -код: 200» и «mimeType: text/html».
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 Используйте опцию -p или --pageFilters для применения фильтров страниц. Как только страница будет загружена, она будет сохранена на диск только в том случае, если она содержит одно из слов в этом списке.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 Ограничьте количество страниц, обрабатываемых с помощью опции --limitPages . Это абсолютный ограничение на количество обработанных страниц, две версии одной и той же страницы будут учитываться дважды.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100Предупреждение
Установка высокого предела не рекомендуется, поскольку он может привести к дросселированию или временному черному списку, созданной машиной и Archive.org.
Установите ограничение по скорости для количества страниц для загрузки в секунду, используя опцию -r или --rateLimit . Значение по умолчанию составляет 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 Очистите историю ранее загруженных страниц, используя опцию --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory Включите логовую регистрацию с использованием опции -v или --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10Эта команда будет загружать страницы с «http://example.com», сохранить их в каталог.
Затем просто запустите следующую команду:
dotnet build