Une implémentation d'un simple robot Web dans Python. Le Crawler est entièrement multithread et peut être utilisé pour ramper le Web pour un nom de domaine donné.
Pour commencer, vous devez installer la poésie. Vous pouvez installer la poésie en exécutant la commande suivante dans le shell.
pip install poetryLorsque l'installation est terminée, exécutez la commande suivante dans le shell dans le dossier racine de ce référentiel pour installer les dépendances et créer un environnement virtuel pour le projet.
poetry installAprès cela, entrez dans l'environnement de poésie en invoquant la commande de Shell Poetry.
poetry shellSi vous utilisez un système basé sur Debian, vous pouvez installer les dépendances à l'échelle du système en exécutant la commande suivante.
sudo apt-get install python3-bs4 libnss-resolve nscdPour exécuter le Crawler, vous pouvez utiliser la commande suivante.
pushd src && python3 main.py --domain < domain_name > --threads < number_of_threads > --output < output_file > && popd Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.