Waybackdownloader는 Wayback Machine에서 웹 사이트의 모든 페이지 사본을 다운로드하기위한 CLI 도구입니다.
소스에서 빌드하거나 릴리스 페이지에서 다운로드하십시오.
가장 간단한 형태로 도구를 사용하려면 다음 명령을 사용하십시오.
WaybackDownloader.exe " www.example.com " " ./example " 이 명령에서 www.example.com 은 다운로드 할 웹 사이트이며 ./example 은 다운로드 된 페이지가 저장되는 디렉토리입니다.
Wayback 다운로더는 로그를 사용하여 이미 다운로드 한 웹 페이지에 대한 정보를 저장합니다. 기본적으로 "/downloadHistory"의 현재 작업 디렉토리에서 폴더가 생성됩니다. 사용자 정의 경로를 지정하려면 --historyLogDir 옵션을 사용하십시오.
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder -m 또는 --matchType 옵션을 사용하여 일치 유형을 지정하십시오. 기본값은 '정확한'입니다. 다른 가능한 값으로는 '접두사', '도메인'및 '호스트'가 있습니다.
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix matchType 옵션은 Wayback 시스템의 URL과 일치하는 방법을 결정합니다. 예를 들어 example.com 사용 :
| 일치 유형 | 설명 | 명령 |
|---|---|---|
exact (기본값) | 정확히 example.com 과 일치하는 결과를 반환합니다 | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Path example.com 에서 모든 결과에 대한 결과를 반환합니다 | WaybackDownloader.exe example.com outputDir -m prefix |
host | host example.com 에서 결과를 반환합니다 | WaybackDownloader.exe example.com outputDir -m host |
domain | host example.com 및 모든 서브 호스트 *.example.com 에서 결과를 반환합니다 | WaybackDownloader.exe example.com outputDir -m domain |
--from 및 --to 옵션을 사용하여 시간 범위를 정의하십시오. 타임 스탬프는 Wayback Machine Format yyyyMMddHHmmss 따라야합니다. 타임 스탬프를 지정할 때 최소 4 자리 연도를 지정해야합니다.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 -f 또는 --filters 옵션을 사용하여 필터를 적용하십시오. 기본 필터는 '상태 코드 : 200'및 'mimetype : text/html'입니다.
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 -p 또는 --pageFilters 옵션을 사용하여 페이지 필터를 적용하십시오. 페이지가 다운로드되면이 목록에 단어 중 하나가 포함 된 경우에만 디스크에 저장됩니다.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 --limitPages 옵션을 사용하여 처리 된 페이지 수를 제한하십시오. 이는 처리 된 페이지 수에 대한 절대 제한이며, 같은 페이지의 두 버전은 두 번 계산됩니다.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100경고
Wayback Machine 및 Archive.org에 의해 스로틀링 또는 임시 블랙리스트로 이어질 수 있으므로 높은 요금 제한을 설정하는 것은 권장되지 않습니다.
-r 또는 --rateLimit 옵션을 사용하여 초당 다운로드 할 페이지 수의 속도 제한을 설정하십시오. 기본값은 5입니다.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 --clearHistory 옵션을 사용하여 이전에 다운로드 한 페이지의 기록을 지우십시오.
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory -v 또는 --verbose 옵션을 사용하여 Verbose 로깅을 활성화하십시오.
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10이 명령은 'http://example.com'에서 페이지를 다운로드하고 './downloads'디렉토리에 저장하고 'http://example.com'으로 시작하는 URL과 일치하는 URL, 2020 년부터 페이지를 다운로드하고 404 상태 코드가있는 페이지를 다운로드하고 'keyword1'또는 'keyword2'를 포함하는 페이지를 제외하고 최대 100 페이지를 포함하고 최대 10 개의 페이지를 다운로드합니다.
그런 다음 다음 명령을 실행합니다.
dotnet build