このリポジトリの開発は、多くのパートナーとスポンサーのサポートなしでは不可能でした。これらのパートナーの1つはScrapingBeeです。これは、いくつかのきちんとした組み込みのアンチボット検出機能を備えたクラウドWebスクレイピングサービスです。
ScrapingBee-無料トライアルにサインアップして、コード「NiesPodd」を使用した最初の請求書で-10%を取得します
ゼロからウェブスクレーパーを構築し始めたばかりで、ソリューションが機能していないために何が間違っているのか疑問に思っているのか、それとも既にクロールターと仕事をしていて、あなたがボットであるというエラーを与えるページにこだわっているのか、それ以上読むことはできません。読み続けてください。
近年、アンチボットソリューションが進化しています。ますます多くのWebサイトがセキュリティ対策を導入しています。Geolocationに従ってIPアドレスをフィルタリングするなどの単純なウェブサイトから、ブラウザーパラメーターの詳細な分析や行動分析に基づいて高度なものまで。これにより、数年前よりもWebスクレイピングコンテンツがより困難でコストがかかります。それにもかかわらず、それはまだ可能です。ここでは、あなたが役立つと思われるいくつかのヒントを強調します。
以下に、私がさまざまなアンチボット保護を回避するために使用したキュレーションされたサービスのリストを見つけることができます。ユースケースに応じて、次のいずれかが必要になる場合があります。
| シナリオ/ユースケース | 解決 | 例 |
|---|---|---|
| 認証なしの短命のセッション | 回転IPアドレスのプール | Amazon、Walmart、Public LinkedInのページなどのWebサイトをこすり落とすと便利です。これは、サインインが不要なWebサイトです。あなたは多くの短命のセッションを作成する予定であり、時々ブロックされる余裕があります。 |
| 地理的に制限されたWebサイト | IPアドレスの地域固有のプール | これは、WebサイトがCloudFlareのファイアウォールと同様のファイアウォールを使用して、地理全体のアクセスをブロックする場合に役立ちます。 |
| サインイン後の長寿命セッション | IPアドレスの繰り返しプールとブラウザ指紋の安定したセット | ここで最も一般的なシナリオは、ソーシャルメディアの自動化などです。たとえば、ソーシャルメディアアカウントを自動化して広告をより効率的に管理するツールを作成します。 |
| JavaScriptベースの検出 | Puppeteer-Extra-Plugin-stealthに似た人気のある回避ライブラリの使用 | 前述のPuppeteer Stealthプラグインなどのオープンソースプラグインを使用して既存のソフトウェアを操作するときに簡単にバイパスできるフィンガープリントを使用する多くのWebサイトがあります。 |
| ブラウザフィンガープリント技術による検出 | 自然なブラウザの指紋。つまり、ターゲットWebサイトにインストールされているJavaScriptソリューションによって検証されている表面全体をカバーしました。 | これらは、最も先進的なケースの1つです。主流の例は、AdyenやStripeなどのクレジットカードプロセッサです。非常に洗練されたブラウザの指紋が作成されており、クレジット詐欺を検出したり、ユーザーから追加の許可を求めています。 |
| 独自の検出手法セット | ターゲットWebサイトの一意の検出面をターゲットにする専門のボットソフトウェア。 | 良い例は、スニーカーマーケットプレイスのウェブサイトとeコマースショップで、カスタムメイドのボットソフトウェアから激しい攻撃を受けていると伝えられています。 |
| シンプルなカスタムメイドの検出手法 | 上記のいずれかに飛び込む前に、小さなWebサイトをターゲットにしている場合、必要なのは、微調整、安価なデータセンタープロキシを備えたScrapyスクリプトだけであり、あなたは行くことができます。 | - |
プロジェクトでどのタイプの回避が必要になるかを決定したら、以下のリストを使用して、プロジェクトに最適なプロバイダーを選択できます。
| タイプ | サービス | 注記 |
|---|---|---|
| プロキシ | ソーシャルプロキシ![]() | 強くお勧めしますか? Pro :IPプールは、GBあたりの充電であるプロキシ業界の既存の「大きなサメ」に反して、一貫して良好です。ここでは、回転エンドポイント内で無制限のトラフィックが得られます。透明なビジネスモデル。 短所: GEOの補償は、ウェブサイトにリストされている国に限定されています。 IPは即座に回転しませんが、むしろ10〜15秒待つ必要があります。 |
Brightdata(以前のLuminatiネットワーク)![]() | 最も人気のあるものの1つですが、おそらく最も高価なプロキシプロバイダーです。 IPプールは、主にHolavpnのユーザーとアプリ収益化SDKから調達されています。 | |
オキシラブ![]() | より多くのコード/低コードのスクレイピング製品を備えたBrightDataの競合他社。 | |
| サービスとしてのスクレイピング | Scrapingbee![]() | 強くお勧めしますか? サービスとして最も高度なステルススクレイピングの1つ。時には、専用のスクレイピングソリューションを構築するよりも安価な場合があります - 使用するトラフィックの量に対して充電しません。 |
Apify.com![]() | Apifyは、既製のツール、統合プロキシ、およびあらゆるスケールでスクレイピングするためのカスタムソリューションを使用して、完全なスクレイピングと自動化SaaSプラットフォームに進化しました。開発者は、プラットフォーム上でスクレーパーを作成し、他のユーザーにレンタルすることもできます。 | |
| サービスとしてのde-captcha | アンチキャプチャ:Captcha Solving Service。 recaptcha、funcaptcha(...)バイパス![]() | 自明。 Bitcoinは受け入れました❤️。 |
これは、小規模なeコマースサイトからフォーチュン500企業に至るまでの企業に最も高度なアンチボットソリューションを提供する企業の網羅的ではないリストです。

Extra.communityに参加してください。そこには、いくつかの複雑なテクニックを使用して、テストされたWebサイトが使用する正確な保護(Berstendなどのクレジットなど)を決定する自動化されたテスターのBotty McBotfaceを実行します。
重要なのは、あなた自身の責任でこのソフトウェアを使用します。それらのいくつかは、ちょうどfyiのマルウェアを含んでいます。私はそれらを使用することをお勧めしません。
| ステルスブラウザ | 操り人形 | セレン | 回避 | SDK/ツール | 起源 |
|---|---|---|---|---|---|
| Gologin | ✔✔️ | ✔✔️ | ? | ? | ?? + ?? |
| インコグリットン | ✔✔️ | ✔✔️ | ? | ✔✔️ | ?? ❓ |
| クロンブローザー | ✔✔️ | ✔✔️ | ? | ✔✔️ | ?? |
| マルチロギン | ✔✔️ | ✔✔️ | ? | ✔✔️ | ?? + ?? |
| Indigoブラウザ | ✔✔️ | ✔✔️ | ? | ✔✔️ | ?? |
| ゴーストブラウザー | ? | ?? | |||
| カメレオ | ✔✔️ | ✔✔️ | ? | ✔✔️ | ?? |
| アントブラウザー | ?? | ||||
| チェブラウザー | ?/✔️ | ? | ?? |
伝説: ? - ノイズに基づく回避。 - いいえ。 ? - 非常に素晴らしい。
このリポジトリのAは大歓迎です!
ここでは、主要なオンラインWebサイトで使用されているボット検出システムを回避するために使用される回避技術のさまざまな側面を研究しています。推奨事項、科学論文への言及など、技術的な問題と非技術的な問題の両方をカバーしています。
以下で共有している技術的な調査結果は、主要なアンチボットソリューションベンダーによって保護されているWebサイトに対して、数か月間Webスクリューングスクリプトを実行することの観察に基づいています。
私は常にこのセクションに物を追加します。時間が経つにつれて、私はそれをより構造化し、感じさせようとします。
✔️Win / Fail /?ネクタイ :
navigatorとwindowプロパティ」User-Agent )と一致するように使用されます。この問題の詳細な説明があります。最も信頼性の高い回避は、ホストOSのスプーフィングがまったくないか、OsFooler-NGを使用していないようです。window.outerdimensionsの回避を提供しますが、ヘッドレスモードの非デフォルトOS上の正しい構成なしでは機能しません。ほとんどの場合viewport size >= screen resolution (ホストの低い画面解像度表示)の場合は失敗します。ServiceWorker / WebWorkerスレッド制限を制限 /バンプすることはできません。navigatorとwindowのプロパティ- マルチロギンドキュメントによると、カスタムブラウザーは通常、ブラウザベンダーが追加した最新の追加の背後に遅れをとっています。この場合、修正されたChromium M7Xが使用されます(これを書くときにほぼ10バージョンの背後にあります)。puppeteer-extra-plugin-stealth Stale Chrommuimビルドとは異なり、Google Chromeで出荷されたネイティブプラグインと拡張機能のオーバーライドを最大限に提供します。TBD(これらのサービスのいずれかにアクティブなサブスクリプションがあり、アカウントの共有を気にしない場合、メールを送信してください❤️)
これらのWebサイトは、Webスクレイピングソフトウェアに対してフィンガープリントテクニックをテストするのに役立つ場合があります
| テストページ | メモ |
|---|---|
| https://bot.incolumitas.com/ | テストの非常に役立つ便利なコレクション |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | ステロイドのフィンガープリントのキャンバス |
| https://pixelscan.net/ | 新しいアップデートの後にクロムに「一貫性のない」を表示することが多いため、100%リアルではありませんが、著者が時々新しい興味深い検出機能を追加するとチェックする価値があります |
| https://browserleaks.com/ | 紹介する必要はありません |
| https://f.vision/ | いくつかの良質のテストページ??みんな |
| https://www.ipqualityscore.com/ip-reputation-check | 人気のあるブラックリストに対する無料の評判チェックを備えた商業サービス |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Recaptchaスコアと、Captcha解決コストを最適化する方法に関する興味深いメモ |
| https://ja3er.com/ | SSL/TLS指紋 |
| https://fingerprintjs.com/demo/ | 基本的なテストに適しています - 信じる人から、当時のユニークな指紋を作成できると主張することができます |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Recaptchaスコアを確認してください |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | 本当に不気味で、すべての中で最も強い |
私は、ウェブサイトにアンチボットソフトウェアを導入することを評価(および/または)計画している人々に一般的な発言をする必要があります。アンチボットソフトウェアはナンセンスです。そのヘビ油は、大金のために技術的な知識のない人々に販売されています。
ボットトラフィックのブロックは、あなた(またはあなたのテクノロジープロバイダー)が実際のユーザーとボットを区別できるという前提に基づいています。これを実現するために、さまざまなプライバシーに侵入的な手法が適用されます。現在まで、それらのどれも、専門のWebスクレイピングツールに対して成功していないことが証明されていません。アンチボットソフトウェアとは、安価なボットトラフィックを減らすことです。スクレイピングをより高価で複雑なプロセスにしますが、それを完全に不可能にしません。
アンチボットソフトウェアベンダーは、これら2つのカテゴリのいずれかに分類される検出手法を使用します。
特殊なWebスクレイピングソフトウェアは使用されていません。ベンダーは、 User-Agentヘッダー、接続パラメーターなどのスクレーパーによって公然と開示された情報に基づいて、悪いトラフィックを検出できます。
その結果、特定のWebサイトを削減することを目的としていないボットのみがブロックされます。これにより、ほとんどのマネージャーは幸せになります。なぜなら、トラフィックの全体的な数が減少し、ウェブサイトにボットトラフィックがこれ以上ないように見える可能性があるためです。間違っている。
より高度なWebスクレーパーは、住宅プロキシを利用し、複雑な回避技術を実装して、Webスクレーパーが実際のユーザーであると考えるためのアンチボットソフトウェアを欺く。 Webブラウザーの技術的な制限により、これを回避するための検出メカニズムは存在しません。
この場合、ほとんどの場合、ベンダーはボットのトラフィックと動作のパターンを見つけることにより、悪いトラフィックをクラスター化することができます。これは、ブラウザのフィンガープリントが出てくる場所です。ここでトラフィックを禁止する際の問題は、ボットが実際のユーザーを模倣しているときに危険な操作であることが判明する可能性があることです。ボットをブロックすることにより、ウェブサイトは実際の訪問者には利用できなくなる可能性があります。
これがGoogle「Captcha Resolve API」に行く方法だと思うなら。
特定のウェブサイトのスクレイピングに問題がある場合は、 [email protected]に短いメールを書いてください。 Skypeを介して簡単にテテと協議をしましょう。
私は感謝していると言ったことがありますか? :-)
Ethereumアドレス0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6