xxl crawlerダウンロード-XXL xxl crawlerソースコードのダウンロード

xxl crawler

ウェブサイトデータ

v1.3.0，分布式爬虫框架

ダウンロード

xxl-crawler

XXL-Crawler、分散型Web Crawlerフレームワーク。
- ホームページ -

導入

XXL-Crawlerは、分散されたWeb Crawlerフレームワークです。コードの1行は、分散クローラーを開発します。「マルチスレッド、非同期、動的IPプロキシ、分散、JavaScriptレンダリング」などの機能。

XXL-Crawlerは、分散クローラーフレームワークです。「マルチスレッド、非同期、IPダイナミックプロキシ、分散、JSレンダリング」およびその他の機能の特性を持つ1つのコードを備えた分散クローラーを開発します。

ドキュメント

中国のドキュメント

特徴

1。簡潔：APIは直感的で簡潔で、すぐに開始できます。
2。軽量：基礎となる実装は、JSOUPのみに依存しており、これはシンプルで効率的です。
3。モジュラー：モジュラー構造設計、拡張が簡単です
4。オブジェクト指向：注釈を介してページデータのページデータの簡単なマッピングをサポートし、基礎となるレイヤーはPageVoオブジェクトのデータ抽出とカプセル化の返された返品を自動的に完了します。単一ページでは、1つ以上のpagevosの抽出をサポートしています。
5。マルチスレッド：スレッドプールで実行して、収集効率を向上させます。
6。分散サポート：分散型は、「RunData」モジュールを拡張し、RedisまたはDB共有ランニングデータを組み合わせて達成できます。 LocalRundataスタンドアロンクローラーはデフォルトで提供されます。
7。JSレンダリング：「Pageloader」モジュールを拡張することにより、JSダイナミックレンダリングデータの取得をサポートします。ネイティブに、JSOUP（非JSレンダリング、高速）、HTMLunit（JSレンダリング）、Selenium+PhantomJS（JSレンダリング、高い互換性）、およびその他の実装を提供し、他の実装の無料拡張をサポートします。
8。再試行の失敗：リクエストが失敗した後に再試行し、再試行時間の数の設定をサポートします。
9。エージェントIP：吸収防止ポリシールールWAF。
10。動的プロキシ：実行時にプロキシプールの動的調整をサポートし、プロキシプールルーティングポリシーをカスタマイズします。
11。非同期：同期および非同期に実行する2つの方法をサポートします。
12。サイト全体の拡散：既存のURLからサイト全体を出発点としてサポートし、既存のURLからrawってサポートします。
13。重複排除：繰り返しのクロールを防ぐ。
14。URLホワイトリスト：ページホワイトリストのルールの設定とFilting URLをサポートします。
15.次のようなカスタムリクエスト情報：リクエストパラメーター、Cookie、ヘッダー、ユーザーエージェントポーリング、リファラーなど。
16.動的パラメーター：ランタイム中のリクエストパラメーターの動的調整をサポートします。
17。タイムアウト制御：クローラーリクエストのタイムアウト時間の設定をサポート。
18.アクティブな一時停止：クローラースレッドは、ページを処理した後に積極的に一時停止し、頻繁に傍受されないようにします。