xxl-crawler
XXL-Crawler、分散型Web Crawlerフレームワーク。
- ホームページ -
導入
XXL-Crawlerは、分散されたWeb Crawlerフレームワークです。コードの1行は、分散クローラーを開発します。 「マルチスレッド、非同期、動的IPプロキシ、分散、JavaScriptレンダリング」などの機能。
XXL-Crawlerは、分散クローラーフレームワークです。 「マルチスレッド、非同期、IPダイナミックプロキシ、分散、JSレンダリング」およびその他の機能の特性を持つ1つのコードを備えた分散クローラーを開発します。
ドキュメント
特徴
- 1。簡潔:APIは直感的で簡潔で、すぐに開始できます。
- 2。軽量:基礎となる実装は、JSOUPのみに依存しており、これはシンプルで効率的です。
- 3。モジュラー:モジュラー構造設計、拡張が簡単です
- 4。オブジェクト指向:注釈を介してページデータのページデータの簡単なマッピングをサポートし、基礎となるレイヤーはPageVoオブジェクトのデータ抽出とカプセル化の返された返品を自動的に完了します。単一ページでは、1つ以上のpagevosの抽出をサポートしています。
- 5。マルチスレッド:スレッドプールで実行して、収集効率を向上させます。
- 6。分散サポート:分散型は、「RunData」モジュールを拡張し、RedisまたはDB共有ランニングデータを組み合わせて達成できます。 LocalRundataスタンドアロンクローラーはデフォルトで提供されます。
- 7。JSレンダリング:「Pageloader」モジュールを拡張することにより、JSダイナミックレンダリングデータの取得をサポートします。ネイティブに、JSOUP(非JSレンダリング、高速)、HTMLunit(JSレンダリング)、Selenium+PhantomJS(JSレンダリング、高い互換性)、およびその他の実装を提供し、他の実装の無料拡張をサポートします。
- 8。再試行の失敗:リクエストが失敗した後に再試行し、再試行時間の数の設定をサポートします。
- 9。エージェントIP:吸収防止ポリシールールWAF。
- 10。動的プロキシ:実行時にプロキシプールの動的調整をサポートし、プロキシプールルーティングポリシーをカスタマイズします。
- 11。非同期:同期および非同期に実行する2つの方法をサポートします。
- 12。サイト全体の拡散:既存のURLからサイト全体を出発点としてサポートし、既存のURLからrawってサポートします。
- 13。重複排除:繰り返しのクロールを防ぐ。
- 14。URLホワイトリスト:ページホワイトリストのルールの設定とFilting URLをサポートします。
- 15.次のようなカスタムリクエスト情報:リクエストパラメーター、Cookie、ヘッダー、ユーザーエージェントポーリング、リファラーなど。
- 16.動的パラメーター:ランタイム中のリクエストパラメーターの動的調整をサポートします。
- 17。タイムアウト制御:クローラーリクエストのタイムアウト時間の設定をサポート。
- 18.アクティブな一時停止:クローラースレッドは、ページを処理した後に積極的に一時停止し、頻繁に傍受されないようにします。
コミュニケーション
貢献
貢献は大歓迎です!プルリクエストを開いてバグを修正するか、問題を開き、新しい機能や変更を議論します。
プロジェクトの貢献に参加してください!たとえば、PRを送信してバグを修正するか、新しい問題を作成して新しい機能や変更について議論します。
アクセス登録
アクセスする企業については、登録先住所に登録してください。登録は、製品プロモーションのみです。
著作権とライセンス
この製品はオープンソースで無料であり、無料のコミュニティ技術サポートを提供し続けます。個人またはエンタープライズユーザーは、自由にアクセスして使用できます。
- Apacheライセンス、バージョン2.0に基づいてライセンスされています。
- Copyright(c)2015-Present、Xuxueli。
製品はオープンソースで無料であり、無料のコミュニティテクニカルサポートが引き続き提供されます。個人または企業内での無料アクセスと使用。
寄付する
あなたの考えを表現するのに十分な量であっても、どうもありがとうございました:)寄付する
どれだけの量があっても、あなたの感情を表現するだけで十分です。どうもありがとうございました:)寄付に行きなさい