プロジェクトステータス:まだアクティブな開発中です!ただし、そのほとんどはすでに使用可能です。アルファテスター大歓迎!ここでの毎日の仕事に関する完全な統計。
注:これはプロジェクトの新しい公式リポジトリであり、古いC ++とRustリポジトリは閉鎖され、利用可能/維持されなくなりました。新しい開発にはこれを使用してください。
Crowlerは、コアにユニークな哲学を備えたオープンソースの機能が豊富なWeb Crawlerです。言い換えれば、クロウラーは、ユーザーの利便性を最大化しながら、クロールするウェブサイトへの影響を最小限に抑えることで際立っています。
さらに、システムにはAPIが装備されており、データクエリ用の合理化されたインターフェイスを提供します。この機能により、さまざまなアプリケーションのインデックス化されたデータへの簡単な統合とアクセスが保証されます。
Crowlerはマイクロサービスベースになるように設計されているため、コンテナ化された環境に簡単に展開できます。
機能の詳細については、機能ページを参照してください。
Crowlerは、Webクロール、コンテンツの発見、技術検出、データ抽出に関する一連の問題を解決するように設計されています。
主な目標は、プライベート、プロフェッショナル、およびエンタープライズユーザーがコンテンツディスカバリーソリューションを迅速に開発できるようにすることですが、プライベートネットワークやイントラネットをクロールできるように設計されているため、独自または会社の検索エンジンを作成することができます。
それに加えて、ウェブサイト、そのネットワーク、所有者、脆弱性、サービスが公開されているなどに関する情報を収集するために使用できるため、より複雑なサイバーセキュリティツールの「ベース」として使用することもできます。
また、情報を抽出することもできます。ソースを参照して知識ベースを作成したり、特定のトピックに関する情報のデータベースを作成したりするために使用できます。
明らかに、キーワード分析、言語検出などを行うためにも使用できますが、これはすべてのクローラーを使用できるものです。ただし、すべての「クラシック」機能は実装/実装されています。
The :as /ðə /子音の音の前に「thuh」のように聞こえると発音されます。
Crow :As /kroʊ /、「Know」または「Snow」で韻を踏む。
LER :後者の部分は /lər /として発音されます。これは、「Tumbler」の「クローラー」または「ler」という単語の終わりと同様です。
それをすべてまとめると、「 thuh kroh-lər 」のように聞こえます
「クロウラーは単なるツールではありません。倫理的、効率的で効果的なWebクロールへのコミットメントです。学術研究、市場分析、サイバーセキュリティの姿勢を強化しているかどうかにかかわらず、クロウラーは整合性と精度を提供します。
Webクロールの基準を再定義することにご参加ください。もっと探索し、より敬意と洞察力のあるデジタル探査へのクローラーの旅に貢献してください。」
?それは明らかに上に少し上にありますが、それは楽しかったです、そして私はただ楽しみのためにここにそれを含めることにしました。ところで、それは私が追加したいように私を落ちさせます:
「...そしてもう1つあります!」 (なぜだろうか?!?!)?
Crowlerはマイクロサービスベースになるように設計されているため、以下をインストールする必要があります。
Dockerの構成ベースのインストールの場合、それはあなたが必要とするすべてです。 DockerとDockerがインストールされている場合は、次のセクションをスキップして、インストールセクションに直接移動できます。
Crowlerをインストールする最も簡単な方法は、 Docker Composeファイルを使用することです。これを行うには、こちらの指示に従ってください。
(1) :config.yamlまたはenv vars、またはルールセットなどについて質問がある場合は、GPTチャットボットを使用して支援できます。このリンクに移動するだけです(誰でも自由に利用できます)
(2) :Raspberry PiでCrowlerを実行している場合は、 arm64プラットフォーム用にCrowlerを構築する必要があります。そのためには、より簡単な方法は、Raspberry Piにdocker-build.shスクリプトを使用してCrowlerを構築することです。
代わりに、Crowlerを手動でインストールすることを計画している場合は、次のDockerコンテナをインストールする必要があります。
PostgreSQLコンテナ
また、CrowlerはVDI画像を構築する必要があるため、VDI画像も構築する必要があります。
Docker Composeを使用する場合、すべてが自動的に構築されます。必要なのは、インストールセクションの指示に従うことだけです。
代わりに、マシンでローカルに構築する場合は、このセクションの指示に従ってください。
ソースからクロウラーを構築するには、以下をインストールする必要があります。
次に、リポジトリをクローンして、必要なターゲットを構築する必要があります。
すべてをすぐに構築するには、次のコマンドを実行します。
./autobuild.sh個々のターゲットを構築するには:
まず、どのターゲットを構築できるかを確認し、使用できるかを確認します。次のコマンドを実行します。
./autobuild name-of-the-targetこれにより、要求されたコンポーネントが./binで構築されます
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler必要に応じて作成するか、 autobuild.sh (引数なし)を実行してすべてを構築します。
オプションで、Dockerイメージを作成して、次のコマンドを実行するには次のことです。
docker build -t < image name > .注:Crowler Engine Dockerコンテナを構築する場合は、次のDockerコマンドで実行することを忘れないでください(必須です!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine重要な注意:ソースから構築する場合、Crowler VDI Dockerイメージを構築する必要があります。これは、Crowlerが多数の外部ツールを使用してジョブを実行し、それらすべてのツールがVDI画像(仮想デスクトップ画像)にグループ化および構築されるためです。
使用方法については、こちらをご覧ください。
制作でCrowlerを使用したい場合は、Docker Composeのインストールを使用することをお勧めします。それはそれをインストールする最も簡単な方法であり、最も安全な方法です。
セキュリティを向上させるには、CrowlerのコンテナよりもAPIを別のコンテナに展開することを強くお勧めします。また、クロウラーの容器を外の世界にさらす必要はなく、インターネットアクセスの考えが必要になります。
Crowlerのデフォルト構成は、PostgreSQLをデータベースとして使用します。データベースはDockerボリュームに保存され、永続的です。
DBはメンテナンスを必要としないはずです、Crowlerはそれを処理します。クロールアクティビティがなく、以前のメンテナンスアクティビティから1時間が経過したときはいつでも、Crowlerはデータベースをクリーンアップしてインデックスを最適化します。
Crowlerは、Apache 2.0ライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。
プロジェクトに貢献したい場合は、貢献ファイルをお読みください。
クロウラーは、貢献者契約行動規範を採用しています。詳細については、code_of_conductファイルを参照してください。
クロウラーは多くのオープンソースプロジェクトの上に構築されており、これらのプロジェクトに貢献したすべての開発者に感謝したいと思います。それらがなければ、クロウラーは不可能です。
また、コードを貢献すること、テストすること、またはフィードバックを提供することで、プロジェクトを支援している人々に感謝したいと思います。どうもありがとうございました!
Crowlerは、敬意を表してWebサイトをcraうのに役立つように設計されたツールです。ただし、敬意を表する方法で使用するのはあなた次第です。クロウラーは、ツールの誤用について責任を負いません。