Die Entwicklung dieses Repositorys wäre ohne die Unterstützung vieler Partner und Sponsoren nicht möglich gewesen. Einer dieser Partner ist ScrapingBee, ein Cloud-Web-Scraping-Service mit einigen ordentlichen integrierten Anti-Bot-Erkennungsfunktionen.
ScrapingBee - Melden Sie sich für eine kostenlose Testversion an und erhalten Sie -10% auf der ersten Rechnung mit Code "NieSpodd" -
Egal, ob Sie gerade erst anfangen, einen Web -Schaber von Grund auf zu erstellen und sich zu fragen, was Sie falsch machen, weil Ihre Lösung nicht funktioniert, oder Sie bereits für eine Weile mit Crawler gearbeitet haben und auf einer Seite stecken, auf der Sie einen Fehler haben, der besagt, dass Sie ein Bot sind, Sie können nicht weiter gehen, lesen Sie weiter.
Anti-Bot-Lösungen haben sich in den letzten Jahren entwickelt. Immer mehr Websites führen Sicherheitsmaßnahmen ein: von einfachen IP-Adressen gemäß ihrer Geolokalisierung bis hin zu fortgeschrittenen, basierend auf einer eingehenden Analyse der Browserparameter und der Verhaltensanalyse. All dies macht Web -Scraping -Inhalte schwieriger und teurer als vor einigen Jahren. Trotzdem ist es immer noch möglich. Hier hebe ich ein paar Tipps hervor, die Sie möglicherweise hilfreich finden.
Im Folgenden finden Sie eine Liste der kuratierten Dienste, mit denen ich verschiedene Anti-BOT-Schutzmaßnahmen umging. Abhängig von Ihrem Anwendungsfall benötigen Sie möglicherweise eines der folgenden:
| Szenario/Anwendungsfall | Lösung | Beispiel |
|---|---|---|
| Kurzlebige Sitzungen ohne Auth | Pool rotierender IP -Adressen | Das kommt nützlich, wenn Sie Websites wie Amazon, Walmart oder Public LinkedIn Pages kratzen. Dies ist eine Website, auf der keine Anmeldung erforderlich ist. Sie planen, eine hohe Anzahl von kurzlebigen Sitzungen durchzuführen und können sich leisten, hin und wieder blockiert zu werden. |
| Geografisch eingeschränkte Websites | Regionspezifischer Pool von IP-Adressen | Dies ist nützlich, wenn die Website eine Firewall verwendet, die der von CloudFlare ähnelt, um die gesamte Geographie daran zu hindern, darauf zuzugreifen. |
| Langlebige Sitzungen nach Anmeldung | Wiederholbarer Pool von IP -Adressen und stabilen Set von Browser -Fingerabdrücken | Das häufigste Szenario hier ist die Automatisierung der Social -Media -Automatisierung, z. B. Sie erstellen ein Tool, um Social -Media -Konten zu automatisieren, um Anzeigen effizienter zu verwalten. |
| JavaScript-basierte Erkennung | Verwendung von Volksbibliotheken der Bevölkerung, ähnlich wie Puppeteer-Extra-Plugin-Stealth | Es gibt eine Reihe von Websites, bei denen Fingerabdruckjs verwendet werden können, wenn Sie Open-Source-Plugins wie das oben erwähnte Puppenspieler Stealth-Plugin verwenden, um mit Ihrer vorhandenen Software zu arbeiten. |
| Erkennung mit Browser -Fingerabdrucktechniken | Natural aussehender Browser -Fingerabdrücke. Das heißt, nachdem die gesamte Oberfläche abgedeckt ist, die von der installierten JavaScript -Lösung auf der Zielwebsite validiert wird. | Dies ist einer der fortschrittlichsten Fälle. Mainstream -Beispiele sind Kreditkartenverarbeiter wie Adyen oder Stripe. Es wird ein sehr ausgeklügelter Browser -Fingerabdruck erstellt, um Kreditbetrug zu erkennen oder zusätzliche Autorisierung des Benutzers zu fordern. |
| Einzigartige Reihe von Erkennungstechniken | Spezialisierte Bot -Software, die auf die eindeutige Erkennungsfläche der Zielwebsite abzielt. | Gute Beispiele sind Sneakers Marketplace-Websites und E-Commerce-Läden, die Berichten zufolge von maßgeschneiderter Bot-Software stark angegriffen wurden. |
| Einfache maßgefertigte Erkennungstechniken | Bevor Sie in eines der oben genannten Einstendungen auf eine kleinere Website eintauchen, ist es sehr wahrscheinlich, dass Sie nur ein Scrapy-Skript mit Optimierungen, einem billigen Daten-Center-Proxy benötigen, und Sie können loslegen. | - - |
Sobald Sie sich dafür entschieden haben, welche Art von Ausweichen in Ihrem Projekt benötigt wird, können Sie die folgende Liste verwenden, um den besten Anbieter für Ihr Projekt auszuwählen:
| Typ | Service | Notiz |
|---|---|---|
| Proxy | Der soziale Proxy ![]() | Sehr zu empfehlen? ✔️ Profis : Die IP -Pools sind durchweg gut, entgegen den vorhandenen "großen Haie" der Proxy -Branche, die pro GB berechnet, erhalten Sie hier unbegrenzten Verkehr innerhalb eines rotierenden Endpunkts. Transparentes Geschäftsmodell. Nachteile: Die GEO -Berichterstattung ist auf die auf der Website aufgeführten Länder beschränkt. IP wird nicht sofort gedreht, aber Sie müssen lieber 10-15 Sekunden warten. |
Brightdata (ehemals Luminati Networks)![]() | Einer der beliebtesten, aber wahrscheinlich auch der teuerste Proxy -Anbieter. Der IP -Pool stammt hauptsächlich von Benutzern von Holavpn und einer App -Monetisierungs -SDK. | |
Oxylabs![]() | Konkurrent von Brightdata mit mehr Code-/Low-Code-Schablonen-Produkten. | |
| Als Service abkratzen | Scrapingbee![]() | Sehr zu empfehlen? Eines der fortschrittlichsten Stealthy Scraping als Service. Manchmal kann es billiger sein, als eine dedizierte Krabbungslösung zu bauen - sie berechnen nicht die Menge des verwendeten Verkehrs. |
Apify.com![]() | Apify hat sich zu einer vollständigen SaaS-Plattform für Scraping and Automation mit vorbereiteten Tools, einem integrierten Proxy und benutzerdefinierten Lösungen für das Abkratzen in jeder Skala entwickelt. Entwickler können auch Schaber auf der Plattform erstellen und an andere Benutzer mieten. | |
| De-captcha als Service | Anti Captcha: Captcha -Lösungsdienst. Bypass Recaptcha, Funcaptcha (...)![]() | Selbsterklärend. Bitcoin akzeptierte ❤️. |
Dies ist eine nicht exexhustive Liste von Unternehmen, die die fortschrittlichsten Anti-Bot-Lösungen für Unternehmen bieten, die von kleineren E-Commerce-Websites bis hin zu Fortune 500-Unternehmen reichen:

Treten Sie extra bei. Dort wird ein automatisiertes Tester Botty McBotface ausgeführt, das mehrere komplizierte Techniken verwendet, um zu bestimmen, welcher genaue Schutz eine getestete Website verwendet (Credits für Berstend und andere von #insiders).
Wichtig, dass Sie diese Software auf eigenes Risiko verwenden. Einige von ihnen enthalten Malwares nur zu Ihrer Information. Ich empfehle nicht, sie zu verwenden.
| Stealth -Browser | Puppenspieler | Selen | Ausgänge | SDK/Werkzeug | Herkunft |
|---|---|---|---|---|---|
| Gologin | ✔️ | ✔️ | ? | ? | ? + ?? |
| Inkogniton | ✔️ | ✔️ | ? | ✔️ | ? ❓ |
| Clonbrowser | ✔️ | ✔️ | ? | ✔️ | ? |
| Multilogin | ✔️ | ✔️ | ? | ✔️ | ? + ?? |
| Indigo -Browser | ✔️ | ✔️ | ? | ✔️ | ? |
| Ghostbrowser | ? | ? | |||
| KAMELEO | ✔️ | ✔️ | ? | ✔️ | ? |
| Antbrowser | ? | ||||
| Chebrowser | ?/✔️ | ? | ? |
Legende :? - Ausweichen basierend auf Lärm. - Nr. ✔️ - akzeptabel (mit Support -Bibliotheken oder nicht). ? - Sehr schön.
A auf diesem Repo wird geschätzt !
Hier studiere ich verschiedene Aspekte von Ausweichentechniken, die verwendet werden, um Bot -Erkennungssysteme zu umgehen, die von großen Online -Websites verwendet werden. Ich behandle sowohl technische als auch nicht-technische Angelegenheiten, einschließlich Empfehlungen, Verweise auf wissenschaftliche Arbeiten und vieles mehr.
Die technischen Erkenntnisse, die ich unten teile, basieren auf Beobachtungen beim Ausführen von Web-Scraping-Skripten für einige Monate gegen Websites, die von den wichtigsten Anbietern von Anti-Bot-Lösungen geschützt sind.
Ich füge ständig Sachen zu diesem Abschnitt hinzu. Im Laufe der Zeit werde ich versuchen, es aussehen zu lassen und sich strukturierter zu fühlen.
✔️ Win / Fail /? Binden :
navigator und windowUser-Agent ) übereinzustimmen. Es gibt eine detaillierte Erklärung des Problems. Die zuverlässigste Ausweichen scheint das Host-Betriebssystem überhaupt nicht zu fälschen oder Osfooler-ng zu verwenden.window.outerdimensions bietet. Fast immer fällt bei viewport size >= screen resolution (Anzeige mit niedriger Bildschirmauflösung auf dem Host).ServiceWorker / WebWorker über existierende Puppenspieler -APIs zu begrenzen / zu stoßen.navigator und window - gemäß Multilogin -Dokumentationspunkt -Custom -Browser -Builds bleiben in der Regel hinter den neuesten Ergänzungen, die von Browseranbietern hinzugefügt wurden. In diesem Fall wird modifiziertes Chrom M7X verwendet (fast 10 Versionen dahinter, wenn Sie dies schreiben).puppeteer-extra-plugin-stealth -Chrom-Chrom-Builds wie ML und Kameleo bieten höchstens eine Überschreibung für native Plugins und Erweiterungen, die mit Google Chrome geliefert werden.TBD (Wenn Sie ein aktives Abonnement in einem dieser Dienste haben und es nichts ausmacht, ein Konto zu teilen, geben Sie mir eine E -Mail -E -Mail.
Diese Websites können nützlich sein, um Fingerabdrucktechniken mit einer Web -Scraping -Software zu testen
| Testseite | Notizen |
|---|---|
| https://bot.incolumitas.com/ | Sehr hilfsbereite und nützliche Sammlung von Tests |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | Fingerabdruck von Leinwand auf Steroiden |
| https://pixelscan.net/ | Nicht 100% reciblik, da es nach einem neuen Update häufig "inkonsistent" gegenüber Chrome zeigt, aber es lohnt |
| https://browserleaks.com/ | Braucht keine Einführung |
| https://f.vision/ | Gute Testseite von einigen? Jungs |
| https://www.ipqualityscore.com/ip-reputation-check | Kommerzieller Service mit kostenlosen Reputationscheck gegen beliebte Blacklists |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-Test-score.html | Recaptcha Score sowie einige interessante Hinweise zur Optimierung der CAPTCHA -Lösungskosten |
| https://ja3er.com/ | SSL/TLS -Fingerabdruck |
| https://fingerprintjs.com/demo/ | Gut für grundlegende Tests - von Menschen, die glauben und behaupten können, können einzigartige Fingerabdrücke "99,5%" der Zeit schaffen |
| https://coveryourtracks.eff.org/ | - - |
| https://www.deviceInfo.me/ | - - |
| https://amiunique.org/ | - - |
| http://uniquemachine.org/ | - - |
| http://dnscookie.com/ | - - |
| https://whatleaks.com/ | - - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-Test-score.html | Überprüfen Sie Ihre Recaptcha -Punktzahl |
| https://antoinevastel.com/bots/ | - - |
| https://antoinevastel.com/bots/datadome | - - |
| https://iphey.com/ | - - |
| https://bot.sannysoft.com/ | - - |
| https://webbrowsertools.com/canvas-fingerprint/ | - - |
| https://webbrowsertools.com/webgl-fingerprint/ | - - |
| https://fingerprint.com/products/bot-detction/ | - - |
| https://abrahamjuliot.github.io/creepjs/ | Wirklich gruselig, der stärkste von allen |
Ich muss eine allgemeine Bemerkung gegenüber Personen machen, die auf ihren Websites eine Anti-BOT-Software einbeziehen (und/oder), die Anti-Bot-Software einführen. Anti-Bot-Software ist Unsinn. Sein Schlangenöl verkauft an Menschen ohne technische Kenntnisse für schwere Dollars.
Das Blockieren des Bot -Verkehrs basiert auf der Prämisse, die Sie (oder Ihr Technologieanbieter) Bots von echten Benutzern unterscheiden können. Damit werden verschiedene Datenschutz-invasive Techniken angewendet. Bisher hat sich keiner von ihnen als erfolgreich gegen spezielle Web -Scraping -Tools erwiesen. Bei Anti-Bot-Software geht es darum, den billigen Bot-Verkehr zu reduzieren. Es macht den Prozess, teurer und komplizierter zu kratzen, aber es macht es nicht völlig unmöglich .
Anti-Bot-Softwareanbieter verwenden Erkennungstechniken, die in eine dieser beiden Kategorien fallen:
Es wird keine spezielle Web -Scraping -Software verwendet. Der Anbieter kann den schlechten Datenverkehr basierend auf Informationen erkennen, die offen vom Schaber- User-Agent Header, Verbindungsparameter usw. offenbart werden usw.
Infolgedessen sind nur Bots, die nicht darauf ausgerichtet sind, bestimmte Website zu kratzen, blockiert . Dies wird die meisten Manager glücklich machen, da die Gesamtzahl des schlechten Verkehrs sinkt und es möglicherweise so aussieht, als ob kein Bot -Verkehr mehr auf der Website vorhanden ist. Falsch.
Fortgeschrittene Web-Scrapers nutzen Wohnproxies und implementieren komplexe Ausweichentechniken, um Anti-Bot-Software zu täuschen, um zu glauben, dass der Web-Schaber ein echter Benutzer ist. Aufgrund der technischen Begrenzung von Webbrowsern gibt es keinen Erkennungsmechanismus.
In diesem Fall kann der Anbieter die meiste Zeit nur den schlechten Datenverkehr zusammenschließen , indem er Muster im Bot -Verkehr und Verhalten findet. Hier kommt der Browser -Fingerabdruck ins Spiel. Das Problem beim Verbot des Verkehrs hier ist, dass es sich als riskantes Betrieb herausstellen kann, wenn Bots erfolgreich echte Benutzer nachahmen. Es besteht die Möglichkeit, dass die Website durch Blockieren von Bots für echte Besucher nicht verfügbar ist .
Wenn Sie der Meinung sind, dass dies ein Weg ist, Google "Captcha Resolve API" zu machen.
Wenn Sie Probleme mit dem Abkratzen einer bestimmten Website haben, schreiben Sie mir eine kurze E -Mail an [email protected] . Lassen Sie uns eine schnelle Tête-à-Tête-Beratung über Skype haben?
Habe ich erwähnt, dass A geschätzt werden würde? :-)
➡️ Ethereum Adresse 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6