WaybackDownloader est un outil CLI pour télécharger la dernière copie de toutes les pages d'un site Web à partir de la machine Wayback.
Construire à partir de la source ou le télécharger à partir de la page des versions.
Pour utiliser l'outil sous sa forme la plus simple, utilisez la commande suivante:
WaybackDownloader.exe " www.example.com " " ./example " Dans cette commande, www.example.com est le site Web à télécharger et ./example est le répertoire où les pages téléchargées seront stockées.
Le téléchargeur Wayback utilise un journal pour stocker des informations sur les pages Web qu'il a déjà téléchargées. Par défaut, un dossier est créé dans le répertoire de travail actuel sous "/ DownloadHistory". Pour spécifier un chemin personnalisé, utilisez l'option --historyLogDir .
WaybackDownloader.exe < matchUrl > < outputDir > --historyLogDir ../../customHistoryLogFolder Spécifiez le type de correspondance à l'aide de l'option -m ou --matchType . La valeur par défaut est «exacte». D'autres valeurs possibles incluent «préfixe», «domaine» et «hôte».
WaybackDownloader.exe < matchUrl > < outputDir > -m Prefix L'option matchType détermine comment le fait correspond aux URL dans la machine Wayback. Utilisation d'exemple.com comme exemple:
| Type de correspondance | Description | Commande |
|---|---|---|
exact (par défaut) | Renvoie les résultats correspondant exactement example.com | WaybackDownloader.exe example.com outputDir -m exact |
prefix | Renvoie les résultats pour tous les résultats sous l' example.com de chemin.com | WaybackDownloader.exe example.com outputDir -m prefix |
host | Renvoie les résultats de example.com d'hôte.com | WaybackDownloader.exe example.com outputDir -m host |
domain | Renvoie les résultats de l'exemple example.com et de tous les sous-hôts *.example.com | WaybackDownloader.exe example.com outputDir -m domain |
Définissez une plage de temps en utilisant les options --from et --to . L'horodatage doit suivre le format Wayback Machine yyyyMMddHHmmss . Au moins une année à 4 chiffres doit être spécifiée lors de la spécification d'un horodatage.
WaybackDownloader.exe < matchUrl > < outputDir > --from 20200101 --to 20201231 Appliquer des filtres à l'aide de l'option -f ou --filters . Les filtres par défaut sont «StatusCode: 200» et «MIMETYPE: Text / HTML».
WaybackDownloader.exe < matchUrl > < outputDir > -f ! statuscode:404 -f ! statuscode:302 Utilisez l'option -p ou --pageFilters pour appliquer les filtres de page. Une fois qu'une page a été téléchargée, elle ne sera enregistrée sur le disque que si elle contient l'un des mots de cette liste.
WaybackDownloader.exe < matchUrl > < outputDir > -p keyword1 -p keyword2 Limitez le nombre de pages traitées à l'aide de l'option --limitPages . Il s'agit d'une limite absolue sur le nombre de pages traitées, deux versions de la même page compteront deux fois.
WaybackDownloader.exe < matchUrl > < outputDir > --limitPages 100Avertissement
La définition d'une limite de taux élevée n'est pas recommandée car elle peut entraîner une limitation ou une liste noire temporaire par la machine Wayback et Archive.org.
Définissez la limite de taux pour le nombre de pages à télécharger par seconde à l'aide de l'option -r ou --rateLimit . La valeur par défaut est 5.
WaybackDownloader.exe < matchUrl > < outputDir > -r 10 Effacez l'historique des pages téléchargées précédemment à l'aide de l'option --clearHistory .
WaybackDownloader.exe < matchUrl > < outputDir > --clearHistory Activez la journalisation verbale à l'aide de l'option -v ou --verbose .
WaybackDownloader.exe < matchUrl > < outputDir > -vWaybackDownloader.exe http://example.com ./downloads -m Prefix --from 20200101 --to 20201231 -f ! statuscode:404 -p keyword1 -p keyword2 --limitPages 100 -r 10Cette commande téléchargera des pages à partir de «http://example.com», enregistrera-les dans le répertoire «./downloads», les URL de correspondance qui commencent par «http://example.com», uniquement des pages de téléchargement de l'année 2020, excluent les pages avec un maximum de 1004 pages qui contiennent un «mot-clé 1» ou «keyword2».
Ensuite, exécutez simplement la commande suivante:
dotnet build