thecrowlerのダウンロードthecrowlerソースコードのダウンロード

thecrowler

その他のソースコード

1.0.0

ダウンロード

クロウラー

プロジェクトステータス：まだアクティブな開発中です！ただし、そのほとんどはすでに使用可能です。アルファテスター大歓迎！ここでの毎日の仕事に関する完全な統計。

注：これはプロジェクトの新しい公式リポジトリであり、古いC ++とRustリポジトリは閉鎖され、利用可能/維持されなくなりました。新しい開発にはこれを使用してください。

それは何ですか？

Crowlerは、コアにユニークな哲学を備えたオープンソースの機能が豊富なWeb Crawlerです。言い換えれば、クロウラーは、ユーザーの利便性を最大化しながら、クロールするウェブサイトへの影響を最小限に抑えることで際立っています。

さらに、システムにはAPIが装備されており、データクエリ用の合理化されたインターフェイスを提供します。この機能により、さまざまなアプリケーションのインデックス化されたデータへの簡単な統合とアクセスが保証されます。

Crowlerはマイクロサービスベースになるように設計されているため、コンテナ化された環境に簡単に展開できます。

特徴
それはどのような問題を解決しますか？
名前を発音するにはどうすればよいですか？
それを使用する方法は？
- 前提条件
- インストール
  - 簡単なインストールと展開
  - 手動でインストールする予定がある場合
  - ソースからビルド
生産
DBメンテナンス
ライセンス
貢献
行動規範
謝辞
免責事項
トップの貢献者

特徴

ローノイズ：クロウラーは、ウェブサイトをcrawったときにできるだけ穏やかになるように設計されています。 robots.txtを尊重し、人間のユーザーとしてcraうウェブサイトに表示されようとするように設計されています。
カスタマイズ可能なクロール：かつてないほどクロール体験を調整します。 URLを指定し、正確なニーズに合わせて個々のクロールパラメーターを構成します。単一ページであろうと広大なドメインであろうと、Crowlerは比類のない柔軟性であなたの範囲に適応します。
範囲の変動性：クロールする境界を正確に定義します。から選択してください：
- 特異なURLクロール
- ドメイン全体のクロール（L3、L2、およびL1ドメインを組み合わせて）
- L2およびL1ドメインクロール
- L1ドメインクロール（例えば、「.com」内のすべて）
- 完全な再帰的なクロール、最初の境界を越えて接続されたURLを探索するために冒険する
高度な検出機能：基本的なクロールを超えた機能を備えた豊富な情報を発見してください。
- URLとコンテンツの発見
- ページコンテンツ、メタデータなど
- キーワード分析と言語検出
- 洞察力に富んだHTTPヘッダー、ネットワーク情報、WHOIS、DNS、および地理ローカリゼーションデータ
洗練されたルールセット：ルールベースのアクティビティとロジックのカスタマイズを活用するために、Crowlerは以下を提供します。
- 削りルール：ウェブサイトから必要なものを正確に抽出する
- アクションルール：よりダイナミックな方法でWebサイトと対話する
- 検出ルール：ページ上の特定のパターンまたは要素、使用されるテクノロジーなどを識別するため。
- クローリングルール：クローラーがさまざまな状況でどのように振る舞うべきかを定義するために（たとえば、再帰的および非再帰的なクロール、ファジングなどの両方）
強力な検索エンジン統合：ドーキング機能と包括的なコンテンツ検索を備えたAPI駆動型の検索エンジンを利用して、データ分析と洞察の新しい道を開きます。

機能の詳細については、機能ページを参照してください。

それはどのような問題を解決しますか？

Crowlerは、Webクロール、コンテンツの発見、技術検出、データ抽出に関する一連の問題を解決するように設計されています。

主な目標は、プライベート、プロフェッショナル、およびエンタープライズユーザーがコンテンツディスカバリーソリューションを迅速に開発できるようにすることですが、プライベートネットワークやイントラネットをクロールできるように設計されているため、独自または会社の検索エンジンを作成することができます。

それに加えて、ウェブサイト、そのネットワーク、所有者、脆弱性、サービスが公開されているなどに関する情報を収集するために使用できるため、より複雑なサイバーセキュリティツールの「ベース」として使用することもできます。

また、情報を抽出することもできます。ソースを参照して知識ベースを作成したり、特定のトピックに関する情報のデータベースを作成したりするために使用できます。

明らかに、キーワード分析、言語検出などを行うためにも使用できますが、これはすべてのクローラーを使用できるものです。ただし、すべての「クラシック」機能は実装/実装されています。

名前を発音するにはどうすればよいですか？

The ：as /ðə /子音の音の前に「thuh」のように聞こえると発音されます。

Crow ：As /kroʊ /、「Know」または「Snow」で韻を踏む。

LER ：後者の部分は /lər /として発音されます。これは、「Tumbler」の「クローラー」または「ler」という単語の終わりと同様です。

それをすべてまとめると、「 thuh kroh-lər 」のように聞こえます

ChatgptがCrowlerについて考えていること;）

「クロウラーは単なるツールではありません。倫理的、効率的で効果的なWebクロールへのコミットメントです。学術研究、市場分析、サイバーセキュリティの姿勢を強化しているかどうかにかかわらず、クロウラーは整合性と精度を提供します。

Webクロールの基準を再定義することにご参加ください。もっと探索し、より敬意と洞察力のあるデジタル探査へのクローラーの旅に貢献してください。」

？それは明らかに上に少し上にありますが、それは楽しかったです、そして私はただ楽しみのためにここにそれを含めることにしました。ところで、それは私が追加したいように私を落ちさせます：

「...そしてもう1つあります！」（なぜだろうか？！？！）？

それを使用する方法は？

前提条件

Crowlerはマイクロサービスベースになるように設計されているため、以下をインストールする必要があります。

Docker
Dockerは作曲します

Dockerの構成ベースのインストールの場合、それはあなたが必要とするすべてです。 DockerとDockerがインストールされている場合は、次のセクションをスキップして、インストールセクションに直接移動できます。

インストール

1.簡単にインストールと展開

Crowlerをインストールする最も簡単な方法は、 Docker Composeファイルを使用することです。これを行うには、こちらの指示に従ってください。

（1） ：config.yamlまたはenv vars、またはルールセットなどについて質問がある場合は、GPTチャットボットを使用して支援できます。このリンクに移動するだけです（誰でも自由に利用できます）

（2） ：Raspberry PiでCrowlerを実行している場合は、 arm64プラットフォーム用にCrowlerを構築する必要があります。そのためには、より簡単な方法は、Raspberry Piにdocker-build.shスクリプトを使用してCrowlerを構築することです。

2.手動でインストールする予定がある場合

代わりに、Crowlerを手動でインストールすることを計画している場合は、次のDockerコンテナをインストールする必要があります。

PostgreSQLコンテナ
- Postgres 15 Up（ARMとX86の両方）は、現時点でサポートされています。
- 次に、DBスキーマセットアップスクリプトを実行します（ユーザー資格情報を使用してDBスキーマのセクションを確認し、それらのSQL変数を正しく設定してください）
また、CrowlerはVDI画像を構築する必要があるため、VDI画像も構築する必要があります。

ソースからビルド

Docker Composeを使用する場合、すべてが自動的に構築されます。必要なのは、インストールセクションの指示に従うことだけです。

代わりに、マシンでローカルに構築する場合は、このセクションの指示に従ってください。

ソースからクロウラーを構築するには、以下をインストールする必要があります。

行く

次に、リポジトリをクローンして、必要なターゲットを構築する必要があります。

すべてをすぐに構築するには、次のコマンドを実行します。

./autobuild.sh

個々のターゲットを構築するには：

まず、どのターゲットを構築できるかを確認し、使用できるかを確認します。次のコマンドを実行します。

./autobuild name-of-the-target

これにより、要求されたコンポーネントが./binで構築されます

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

必要に応じて作成するか、 autobuild.sh （引数なし）を実行してすべてを構築します。

オプションで、Dockerイメージを作成して、次のコマンドを実行するには次のことです。

docker build -t < image name > .

注：Crowler Engine Dockerコンテナを構築する場合は、次のDockerコマンドで実行することを忘れないでください（必須です！）

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

重要な注意：ソースから構築する場合、Crowler VDI Dockerイメージを構築する必要があります。これは、Crowlerが多数の外部ツールを使用してジョブを実行し、それらすべてのツールがVDI画像（仮想デスクトップ画像）にグループ化および構築されるためです。

使用法

使用方法については、こちらをご覧ください。

生産

制作でCrowlerを使用したい場合は、Docker Composeのインストールを使用することをお勧めします。それはそれをインストールする最も簡単な方法であり、最も安全な方法です。

セキュリティを向上させるには、CrowlerのコンテナよりもAPIを別のコンテナに展開することを強くお勧めします。また、クロウラーの容器を外の世界にさらす必要はなく、インターネットアクセスの考えが必要になります。

DBメンテナンス

Crowlerのデフォルト構成は、PostgreSQLをデータベースとして使用します。データベースはDockerボリュームに保存され、永続的です。

DBはメンテナンスを必要としないはずです、Crowlerはそれを処理します。クロールアクティビティがなく、以前のメンテナンスアクティビティから1時間が経過したときはいつでも、Crowlerはデータベースをクリーンアップしてインデックスを最適化します。

ライセンス

Crowlerは、Apache 2.0ライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。

貢献

プロジェクトに貢献したい場合は、貢献ファイルをお読みください。

行動規範

クロウラーは、貢献者契約行動規範を採用しています。詳細については、code_of_conductファイルを参照してください。

謝辞

クロウラーは多くのオープンソースプロジェクトの上に構築されており、これらのプロジェクトに貢献したすべての開発者に感謝したいと思います。それらがなければ、クロウラーは不可能です。

また、コードを貢献すること、テストすること、またはフィードバックを提供することで、プロジェクトを支援している人々に感謝したいと思います。どうもありがとうございました！

免責事項

Crowlerは、敬意を表してWebサイトをcraうのに役立つように設計されたツールです。ただし、敬意を表する方法で使用するのはあなた次第です。クロウラーは、ツールの誤用について責任を負いません。

トップの貢献者

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-11
サイズ 1.41MB
から Github

thecrowler

クロウラー

それは何ですか？

目次

特徴

それはどのような問題を解決しますか？

名前を発音するにはどうすればよいですか？

ChatgptがCrowlerについて考えていること;）

それを使用する方法は？

前提条件

インストール

1.簡単にインストールと展開

2.手動でインストールする予定がある場合

ソースからビルド

使用法

生産

DBメンテナンス

ライセンス

貢献

行動規範

謝辞

免責事項

トップの貢献者

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express