クローラープロジェクトの実践
説明します
著者の個人的なブログ
鍋の揚げ唐辛子のブログ
すべてのプロジェクトは、著者のトレーニングと共有プロジェクトです。侵害がある場合は、削除するにはお問い合わせください。これは、学習と共有のみであり、商業活動を実行することはできません。
プログラムの完了の時間の問題により、一部のプロジェクトは再利用されない場合があります。
練習ノートについては、 note.txtを参照してください
このプロジェクトは継続的に更新されます
プロジェクトの実際の説明については、Bステーションを参照してください:https://space.bilibili.com/35242527/channel/collectiondetail?sid=1590251
以下は、Webサイトクロールの難易度の個人的な評価です
| 学年 | ロゴ | 難易度の説明 |
|---|
| クモの卵 | 0 | はじめる |
| 若いクモ | 00 | しきい値を超えました |
| 小さなクモ | * | 主要な |
| ビッグクモ | ** | ジュニアより少し高い |
| 巨大なクモ | *** | 中程度の難易度 |
| 放射クモ | + | 中程度の難易度と上部の難易度 |
| 有毒なクモ | ++ | もっと難しい |
| スパイダーキング | +++ | 災害 |
| スパイダースピリット | 王 | 地獄 |
プロジェクトカタログ
グラフTD;
基本 - >リクエスト;
基本 - > HTMLおよびレギュラーの分析。
基本 - >スクラピー;
基本 - >高性能の非同期クローラー。
基本 - > feapder;
自動化 - >セレン
自動化 - >劇作家;
高度な章 - >包括的なケース。
高度な章 - > JSリバーストピック。
JS Reverseトピック - >ヘッダーまたは応答データ暗号化を要求します。
JS Reverseトピック - >ブラウザ指紋検出。
JS Reverseトピック - > Webpack記事。
JSリバーストピック - >環境検出。
JS Reverseトピック - > wasm;
検証コード - > Slider;
検証コード - >クリックして選択します。
読み込みプロジェクトで使用されるサードパーティライブラリ
pip install requests # requests库,爬虫的开始
pip install curl_cffi # 标准tls请求库
pip install lxml # xpath提取数据
pip install playwright # 自动化需要
pip install ddddocr # 识别验证码
pip install selenium # 自动化需要,推荐playwright
pip install scrapy # 爬虫框架
pip install " feapder[all] " # 新一代爬虫框架
pip install pycryptodome # python标准密码库
pip install pyexecjs2 # python调用js代码
pip install m3u8 # 下载m3u8视频
pip install prettytable # 格式化输出
pip install tqdm # 进度条
pip install loguru # 强大的日志工具库
pip install retrying # 强大的重试工具
npm install crypto-js/cryptojs # 二选一,js标准密码库
npm install jsdom # js模拟浏览器的dom和bom
npm install tough-cookie # 浏览器cookie
基本
リクエスト
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| ナイトアテンダント | Baidu Webページ | 最初のクローラープログラム | ここをクリック |
| ナイトアテンダント | UA識別 | 最初の逆クロール | ここをクリック |
| ナイトアテンダント | Baidu翻訳 | POSTリクエストを知っています | ここをクリック |
| ナイトアテンダント | ドゥーバン映画 | ベース | ここをクリック |
| ナイトアテンダント | KFCロケーションクエリ | JSONの練習 | ここをクリック |
HTMLと通常の記事の解析
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| 準ナイト | fakeuaを取得します | LXML解析 | ここをクリック |
| 準ナイト | 4K写真クロール | LXMLとエンコードエラーの問題を解決します | ここをクリック |
| 準ナイト | 58 | LXMLとページングクロール | ここをクリック |
| 準ナイト | BSの基本 | 初期BS | ここをクリック |
| 準ナイト | BSケース | 実用的なBS | ここをクリック |
| 準ナイト | XPathの基本 | 最初のXPath | ここをクリック |
| 準ナイト | xpath解析 | xpathを練習します | ここをクリック |
| 準ナイト | 定期的な基本 | 初期規制 | ここをクリック |
| 準ナイト | 定期的なエクササイズ | 実用的なルール | ここをクリック |
| 準ナイト | クロールを再開します | 上記の小さな包括的な | ここをクリック |
スクラピー
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| グレートナイト | ボスジョブ | レベル1ページのクロールは、利用できない場合があります | ここをクリック |
| グレートナイト | ダブルカラーボール | すべてが基本的なスクラップ操作です | ここをクリック |
| グレートナイト | 写真 | すべてが基本的なスクラップ操作です | ここをクリック |
| グレートナイト | サンシャインポリシー | すべてが基本的なスクラップ操作です | ここをクリック |
| グレートナイト | yi車のデータクロール | JS Reverseを使用すると、エントリーレベルと大規模なJSONデータ分析にすぎません | ここをクリック |
| グレートナイト | 学校の美容ネットワーク | すべてが基本的なスクラップ操作です | ここをクリック |
| グレートナイト | Netease News | すべてが基本的なスクラップ操作です | ここをクリック |
| グレートナイト | 17K小説クロール | すべてが基本的なスクラップ操作です | ここをクリック |
高性能の非同期クローラー
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| ナイトアテンダント | フラスコに会います | 基本的な知識 | ここをクリック |
| 騎士 | スレッドプールの基本 | 基本的な知識 | ここをクリック |
| グレートナイト | Meinvイメージバッチクロール | ベース | ここをクリック |
| グレートナイト | 有名人の写真がrawう | ベース | ここをクリック |
| グレートナイト | マルチタスクコルーチン | ベース | ここをクリック |
| グレートナイト | スレッドプールアプリケーション | ベース | ここをクリック |
feapder
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| レイヴンの騎士 | Xiaohongshuデータ収集 | エアモードのフィープダーを使用して、CSVストレージパイプラインをカスタマイズします。将来的には、より多くのモードが書き直され、より多くの機能が追加されます。また、追加情報を追加する必要があります。 | ここをクリック |
オートメーション
セレン
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| ナイトアテンダント | 基本的な自動操作 | 基本的な自動化操作 | ここをクリック |
| ナイトアテンダント | シミュレーションログイン | 自動化を練習します | ここをクリック |
| ナイトアテンダント | アクションチェーンとIFream処理 | 自動化を練習します | ここをクリック |
| ナイトアテンダント | ヘッドレスブラウザと検出防止 | 練習する | ここをクリック |
| 騎士 | 12306シミュレーションログイン | ほとんど利用できません | ここをクリック |
| 騎士 | Damai.com | ほとんど利用できません | ここをクリック |
劇作家
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| 騎士 | 郵便番号 | アドレスを介して郵便番号を照会し、待機操作や状況に応じて異なるテーブルを選択するなどの同期方法を使用し、パンダを使用してExcelファイルを同時に操作します | ここをクリック |
| グレートナイト | ローカルブラウザを使用したアンチクロール | 自動化を使用するときに検出することがあります。アンチクロールにはローカルブラウザを使用しています。ローカルブラウザであるため、セッションステータスとCookieステータスの両方が存在します。つまり、ログインしたWebサイトに直接アクセスできます。これははるかに便利で、ブラウザのコンテキストを作成する必要はありません。 | ここをクリック |
| アースナイト | 情報を収集します | 難しさは、各Webサイトに異なるスタイルがあり、すべてのデータが同じではなく、数が大きいことです。定期的なルールを書くことは困難であり、非同期に対処することも困難です。倉庫には10ページのみがリストされているため、作家は通常のルールと非同期の劇作家を特定の理解を深める必要があります。 | ここをクリック |
| グレートナイト | 検出防止ブラウザ | DaniuのJSファイルを介して検出防止ブラウザを作成します。これにより、ほとんどの検出がバイパスできます | ここをクリック |
| アースナイト | Qidian VIP小説クローリング | Qidian VIP小説のCSSアンチクライミングをスクリーンショットでバイパスすると、使用される知識ポイントは、ポジショニングボックス、スクリーンショット、スライド、処理境界、およびスクリーンショットの融合です。このソリューションは最適なソリューションではありません。誰もが追加できます | ここをクリック |
高度な章
包括的なケース
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| 騎士 | 特定の詩のウェブサイト | 検証コード関連、ログイン、画像検証コードソリューション--- DDDDOCR | ここをクリック |
| グレートナイト | 言語クローラー | インターネットを使用してテキストを言語に変換し、中国語、英語、韓国語をサポートします | ここをクリック |
| グレートナイト | Bステーション包括的 | ユーザーが気に入っているかどうかを確認し、メッセージリストをプルして、いいねリストをプルします | ここをクリック |
| アースナイト | ビデオウェブサイト | M3U8ビデオダウンロードキーで、キーなしで状況を解決し、M3U8エントリーレベルとマルチスレッドダウンロード | ここをクリック |
| アースナイト | Ins Crawler | ページパラメーター抽出およびJSONファイルの解析用 | ここをクリック |
| アースナイト | Douyinデータがサイト全体でクロールします | ビデオ画像のダウンロード、コメントクロール、ユーザー情報クロールなど...現在、一部のインターフェイスもXB検出を開始しています。検出されたインターフェイスを使用する必要がある場合は、データを取得するにはXBを追加する必要があります。署名を再統合します。 jsファイルを見つけてgithubで署名を取得し、douyinファイルと同じディレクトリに入れてxb.jsに名前を付けます。 UPは、GitHubのオープンソースであるコードリポジトリを提供します。リポジトリはコードにマークされており、現在使用できます。 | ここをクリック |
| アースナイト | サイト全体でrawうweiboデータ | ユーザーの検索、投稿の検索、コメントのダウンロード、ユーザーアルバムのダウンロード、ユーザーホームページ、ユーザー情報などを含む... | ここをクリック |
| 未知のレベル | 爬虫類のホイール | 個人的には、一般的に使用されるクローラー法の二次カプセル化は、後の開発に便利です | ここをクリック |
JSリバーストピック
ヘッダーまたは応答データ暗号化を要求します
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| 騎士 | nenniuデータ | ヘッダー暗号化、応答ボディ暗号化を要求します | ここをクリック |
| 騎士 | エンターテインメントインデックス | 基本的な紹介 | ここをクリック |
| 騎士 | Yienデータ | 応答ボディ暗号化 | ここをクリック |
| 騎士 | とにかくチェックしてください | 応答ボディ暗号化 | ここをクリック |
| グレートナイト | FJSパブリックトランザクション | 難読化されたパラメーター暗号化 | ここをクリック |
| グレートナイト | 唯一の芸術 | 動的JS実行コード | ここをクリック |
| アースナイト | 天気ウェブサイト | ダイナミックJSダイナミックキーダイナミックパラメーターアンチデブラグ | ここをクリック |
| アースナイト | サッカーのウェブサイト | リクエスト本文の複数の暗号化、暗号化された場所を見つけることは困難です | ここをクリック |
| アースナイト | ワンギユン音楽 | サイト全体でrawうデータを実装します | ここをクリック |
| アースナイト | GDSパブリックトランザクション | 混乱を招くパラメーターでは、場所を見つける必要があります | ここをクリック |
| アースナイト | 特定の翻訳 | 暗号化応答の復号化を要求することは難しくありません | ここをクリック |
| アースナイト | Bステーションでログインします | RSA暗号化されたパスワード、第3世代のテキストクリックを選択でき、テキストクリックは検証コードセクションにあります | ここをクリック |
webpack
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| アースナイト | 中国鉱物 | 基本的なWebpack、標準バージョン暗号化アルゴリズム、シンプルは、さまざまな方法で実装できます(nodejs、python、decode) | ここをクリック |
環境テスト
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| レイヴンの騎士 | レッドブック | XHS XS環境検出、あなたは自分でクッキーとローカルストレージをファイルに入れる必要があります | ここをクリック |
| レイヴンの騎士 | ボスジョブ | __zp_s ...__環境検出、JSは毎日異なります。いくつかの環境を構成し、JSを変更する必要があります。モジュールの検出などがあります。 | ここをクリック |
| レイヴンの騎士 | 猿人研究質問1 2023 | MD5とAESを魔法のように変更して、ハニーポットを削除し、ブラウザ環境を補充します | ここをクリック |
| アースナイト | ELE.MEパラメーター | PlaywrightからBX_ETパラメーターを取得します | ここをクリック |
| レイヴンの騎士 | PDDのanti_contentパラメーター | これは補充環境ではなく、控除のアルゴリズムです。 PDDの暗号化はおそらく異なるサイトで同じであり、一部のオブジェクトの値は異なります。暗号化されたメイン関数はすべて論理的です | ここをクリック |
| アースナイト | Boss Direct Recruitmentアイテムを更新してクリックしてIPのブロックを解除するので、オンラインで1つ見つかりました | このクリック選択軌道暗号化は、第3世代の極端なテストです | ボスファイルで更新されました |
WASM暗号化
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| レイヴンの騎士 | 特定の航空会社 | WASM操作コンテンツは、暗号化と復号化要求ヘッダーパラメーター暗号化の更新Alibaba System V2検出Alibaba System V3検出(自動取得)を実現するため、すべての暗号化パラメーターが解決されました | ここをクリック |
ブラウザ指紋検出
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| アースナイト | yi jiubi | まず、暗号化されたリクエスト本体であり、TLS指紋検出が続きます。現在、ホームページリクエストはサードパーティライブラリを使用して渡されます。 | ここをクリック |
検証コード
スライダー
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| グレートナイト | JDスライダー | 写真を取得した後、DDDDOCRを使用してスライダーを識別し、軌跡を生成してリクエストを送信できます。ここの軌跡はボスによって書かれています。最初に、ベンチマークを準備し、左から右に手動でスライドさせ、次に揺れを軌跡をかけ、次に2つの軌道をスプライスします(なぜスライドしない軌道が通過しなかった理由がわかりません。 | ここをクリック |
| グレートナイト | アリババ226 | このアップデートPlaywrightは、取得が比較的簡単です | ここをクリック |
| グレートナイト | Feiguaは検証コードスライダーを取得します | このアップデートPlaywrightは、取得が比較的簡単です | ここをクリック |
クリックして選択します
| 難易度マーク | プロジェクト名 | 補充します | クイックナビゲーション |
|---|
| レイヴンの騎士 | 選択する第3世代のポイント | インターフェイスにリクエストの順序に従って順番に写真を取得するように要求し、画像情報を取得した後、識別インターフェイスに送信して、ポイント選択された座標を取得します。座標を取得した後、座標を変換してJSに送信して軌道を生成します。軌跡を取得した後、インターフェイスを要求して検証を取得します | ここをクリック |
星の歴史
スポンサー
この倉庫がクローラーと逆方向を学ぶのに役立つと思うなら、著者を後援し、著者に牛乳茶を飲むように頼むことを歓迎します〜! !
(あなたのサポートは著者を一日中幸せにすることができますか?)