WayBackDownloader adalah alat CLI untuk mengunduh salinan terbaru semua halaman situs web dari mesin wayback.
Bangun dari sumber, atau unduh dari halaman rilis.
Untuk menggunakan alat dalam bentuk paling sederhana, gunakan perintah berikut:
WaybackDownloader.exe " www.example.com " " ./example " Dalam perintah ini, www.example.com adalah situs web untuk diunduh, dan ./example adalah direktori tempat halaman yang diunduh akan disimpan.
Wayback Downloader menggunakan log untuk menyimpan informasi tentang halaman web yang telah diunduh. Secara default, folder dibuat di direktori kerja saat ini di bawah "/downloadhistory". Untuk menentukan jalur khusus, gunakan opsi --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder Tentukan jenis kecocokan menggunakan opsi -m atau --matchType . Nilai default adalah 'tepat'. Nilai lain yang mungkin termasuk 'awalan', 'domain', dan 'host'.
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix Opsi matchType menentukan bagaimana dicocokkan dengan URL di mesin Wayback. Menggunakan example.com sebagai contoh:
| Jenis kecocokan | Keterangan | Memerintah |
|---|---|---|
exact (default) | Mengembalikan hasil yang cocok persis example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Mengembalikan hasil untuk semua hasil di bawah jalur example.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | Mengembalikan hasil dari host example.com | WaybackDownloader.exe example.com outputDir -m host |
domain | Mengembalikan hasil dari host example.com dan semua subhosts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
Tentukan rentang waktu menggunakan opsi --from dan --to . Cap waktu harus mengikuti format mesin wayback yyyyMMddHHmmss . Setidaknya satu tahun 4 digit harus ditentukan saat menentukan cap waktu.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 Terapkan filter menggunakan opsi -f atau --filters . Filter default adalah 'StatusCode: 200' dan 'Mimetype: Text/html'.
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 Gunakan opsi -p atau --pageFilters untuk menerapkan filter halaman. Setelah halaman diunduh, itu hanya akan disimpan ke disk jika berisi salah satu kata dalam daftar ini.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 Batasi jumlah halaman yang diproses menggunakan opsi --limitPages . Ini adalah batas absolut pada jumlah halaman yang diproses, dua versi dari halaman yang sama akan dihitung dua kali.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100Peringatan
Menetapkan batas tingkat tinggi tidak dianjurkan karena dapat menyebabkan pelambatan atau daftar hitam sementara oleh Wayback Machine dan Archive.org.
Tetapkan batas tarif untuk jumlah halaman untuk diunduh per detik menggunakan opsi -r atau --rateLimit . Nilai default adalah 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 Hapus riwayat halaman yang diunduh sebelumnya menggunakan opsi --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory Aktifkan logging verbose menggunakan opsi -v atau --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10Perintah ini akan mengunduh halaman dari 'http://example.com', simpan ke direktori './downloads', cocokkan URL yang dimulai dengan 'http://example.com', hanya unduhan halaman dari tahun 2020, tidak ada halaman status 404, hanya dengan halaman Kunci.
Kemudian, jalankan saja perintah berikut:
dotnet build