KrawlerのダウンロードKrawlerソースコードのダウンロード

ダウンロード

Krawler：PythonのマルチスレッドWeb Crawler

PythonでのシンプルなWebクローラーの実装。クローラーは完全にマルチスレッドされており、特定のドメイン名のためにWebをクロールするために使用できます。

始めるには、詩をインストールする必要があります。次のコマンドをシェルで実行して、詩をインストールできます。

pip install poetry

インストールが終了したら、このリポジトリのルートフォルダーのシェルで次のコマンドを実行して、依存関係をインストールし、プロジェクトの仮想環境を作成します。

poetry install

その後、詩のシェルコマンドを呼び出して詩環境を入力してください。

poetry shell

Debianベースのシステムを使用している場合は、次のコマンドを実行してシステム全体の依存関係をインストールできます。

sudo apt-get install python3-bs4 libnss-resolve nscd

クローラーを実行するには、次のコマンドを使用できます。

 pushd src && python3 main.py --domain < domain_name > --threads < number_of_threads > --output < output_file > && popd

このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。

拡大する

追加情報