WaybackDownloader هي أداة CLI لتنزيل أحدث نسخة من جميع صفحات موقع الويب من جهاز Wayback.
بناء من المصدر ، أو قم بتنزيله من صفحة الإصدارات.
لاستخدام الأداة في أبسط أشكالها ، استخدم الأمر التالي:
WaybackDownloader.exe " www.example.com " " ./example " في هذا الأمر ، www.example.com هو موقع الويب للتنزيل ، و ./example هو الدليل حيث سيتم تخزين الصفحات التي تم تنزيلها.
يستخدم تنزيل Wayback سجلًا لتخزين المعلومات حول صفحات الويب التي تم تنزيلها بالفعل. بشكل افتراضي ، يتم إنشاء مجلد في دليل العمل الحالي ضمن "/DownloadHistory". لتحديد مسار مخصص ، استخدم خيار --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder حدد نوع المطابقة باستخدام خيار -m أو --matchType . القيمة الافتراضية هي "دقيقة". تتضمن القيم الأخرى المحتملة "البادئة" و "المجال" و "المضيف".
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix يحدد خيار matchType كيفية مطابقة عنوان URL في آلة Wayback. باستخدام example.com كمثال:
| نوع المباراة | وصف | يأمر |
|---|---|---|
exact (افتراضي) | إرجاع نتائج مطابقة مثال بالضبط example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | إرجاع نتائج جميع النتائج تحت example.com path.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | إرجاع النتائج من مضيف example.com | WaybackDownloader.exe example.com outputDir -m host |
domain | إرجاع النتائج من مضيف example.com وجميع المكافآت subhosts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
تحديد نطاق زمني باستخدام الخيارات --from --to الخيارات. يجب أن يتبع الطابع الزمني تنسيق آلة Wayback yyyyMMddHHmmss . على الأقل يجب تحديد سنة من 4 أرقام عند تحديد الطابع الزمني.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 قم بتطبيق المرشحات باستخدام خيار -f أو --filters . المرشحات الافتراضية هي "DatusCode: 200" و "Mimetype: Text/HTML".
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 استخدم خيار -p أو --pageFilters لتطبيق مرشحات الصفحة. بمجرد تنزيل الصفحة ، سيتم حفظها فقط على القرص إذا كانت تحتوي على إحدى الكلمات في هذه القائمة.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 الحد من عدد الصفحات التي تمت معالجتها باستخدام خيار --limitPages . هذا هو الحد المطلق لعدد الصفحات التي تمت معالجتها ، وسيتم حساب نسختين من نفس الصفحة مرتين.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100تحذير
لا ينصح بتحديد حد عالية للمعدل لأنه يمكن أن يؤدي إلى اختناق أو قائمة أسود مؤقتة بواسطة آلة Wayback و Archive.org.
قم بتعيين حد السعر لعدد الصفحات التي يتم تنزيلها في الثانية باستخدام خيار -r أو --rateLimit . القيمة الافتراضية هي 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 امسح تاريخ الصفحات التي تم تنزيلها مسبقًا باستخدام خيار --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory قم بتمكين تسجيل المطوّل باستخدام خيار -v أو --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10سيقوم هذا الأمر بتنزيل صفحات من "http://example.com" ، حفظها إلى دليل.
ثم ، فقط قم بتشغيل الأمر التالي:
dotnet build