Eine Implementierung eines einfachen Webcrawlers in Python. Der Crawler ist vollständig multitHhread und kann verwendet werden, um das Web für einen bestimmten Domain -Namen zu kriechen.
Um loszulegen, müssen Sie Gedichte installieren lassen. Sie können Gedichte installieren, indem Sie den folgenden Befehl in der Shell ausführen.
pip install poetryWenn die Installation abgeschlossen ist, führen Sie den folgenden Befehl in der Shell im Stammordner dieses Repositorys aus, um die Abhängigkeiten zu installieren und eine virtuelle Umgebung für das Projekt zu erstellen.
poetry installGeben Sie danach in die Poesie -Umgebung ein, indem Sie den Befehl Poesie Shell aufrufen.
poetry shellWenn Sie ein debianbasiertes System verwenden, können Sie die systemweiten Abhängigkeiten installieren, indem Sie den folgenden Befehl ausführen.
sudo apt-get install python3-bs4 libnss-resolve nscdUm den Crawler auszuführen, können Sie den folgenden Befehl verwenden.
pushd src && python3 main.py --domain < domain_name > --threads < number_of_threads > --output < output_file > && popd Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.