browser fingerprinting -Download - browser fingerprinting -Quellcode herunterladen

browser fingerprinting

Website-Daten

1.0.0

Herunterladen

Die Entwicklung dieses Repositorys wäre ohne die Unterstützung vieler Partner und Sponsoren nicht möglich gewesen. Einer dieser Partner ist ScrapingBee, ein Cloud-Web-Scraping-Service mit einigen ordentlichen integrierten Anti-Bot-Erkennungsfunktionen.

ScrapingBee - Melden Sie sich für eine kostenlose Testversion an und erhalten Sie -10% auf der ersten Rechnung mit Code "NieSpodd" -

Vermeiden Sie die Erkennung von Bot: Wie kann man das Web kratzen, ohne blockiert zu werden? ? ‍?

Egal, ob Sie gerade erst anfangen, einen Web -Schaber von Grund auf zu erstellen und sich zu fragen, was Sie falsch machen, weil Ihre Lösung nicht funktioniert, oder Sie bereits für eine Weile mit Crawler gearbeitet haben und auf einer Seite stecken, auf der Sie einen Fehler haben, der besagt, dass Sie ein Bot sind, Sie können nicht weiter gehen, lesen Sie weiter.

Anti-Bot-Lösungen haben sich in den letzten Jahren entwickelt. Immer mehr Websites führen Sicherheitsmaßnahmen ein: von einfachen IP-Adressen gemäß ihrer Geolokalisierung bis hin zu fortgeschrittenen, basierend auf einer eingehenden Analyse der Browserparameter und der Verhaltensanalyse. All dies macht Web -Scraping -Inhalte schwieriger und teurer als vor einigen Jahren. Trotzdem ist es immer noch möglich. Hier hebe ich ein paar Tipps hervor, die Sie möglicherweise hilfreich finden.

Wo kann man anfangen, nicht nachweisbarer Bot zu bauen?

Im Folgenden finden Sie eine Liste der kuratierten Dienste, mit denen ich verschiedene Anti-BOT-Schutzmaßnahmen umging. Abhängig von Ihrem Anwendungsfall benötigen Sie möglicherweise eines der folgenden:

Szenario/Anwendungsfall	Lösung	Beispiel
Kurzlebige Sitzungen ohne Auth	Pool rotierender IP -Adressen	Das kommt nützlich, wenn Sie Websites wie Amazon, Walmart oder Public LinkedIn Pages kratzen. Dies ist eine Website, auf der keine Anmeldung erforderlich ist. Sie planen, eine hohe Anzahl von kurzlebigen Sitzungen durchzuführen und können sich leisten, hin und wieder blockiert zu werden.
Geografisch eingeschränkte Websites	Regionspezifischer Pool von IP-Adressen	Dies ist nützlich, wenn die Website eine Firewall verwendet, die der von CloudFlare ähnelt, um die gesamte Geographie daran zu hindern, darauf zuzugreifen.
Langlebige Sitzungen nach Anmeldung	Wiederholbarer Pool von IP -Adressen und stabilen Set von Browser -Fingerabdrücken	Das häufigste Szenario hier ist die Automatisierung der Social -Media -Automatisierung, z. B. Sie erstellen ein Tool, um Social -Media -Konten zu automatisieren, um Anzeigen effizienter zu verwalten.
JavaScript-basierte Erkennung	Verwendung von Volksbibliotheken der Bevölkerung, ähnlich wie Puppeteer-Extra-Plugin-Stealth	Es gibt eine Reihe von Websites, bei denen Fingerabdruckjs verwendet werden können, wenn Sie Open-Source-Plugins wie das oben erwähnte Puppenspieler Stealth-Plugin verwenden, um mit Ihrer vorhandenen Software zu arbeiten.
Erkennung mit Browser -Fingerabdrucktechniken	Natural aussehender Browser -Fingerabdrücke. Das heißt, nachdem die gesamte Oberfläche abgedeckt ist, die von der installierten JavaScript -Lösung auf der Zielwebsite validiert wird.	Dies ist einer der fortschrittlichsten Fälle. Mainstream -Beispiele sind Kreditkartenverarbeiter wie Adyen oder Stripe. Es wird ein sehr ausgeklügelter Browser -Fingerabdruck erstellt, um Kreditbetrug zu erkennen oder zusätzliche Autorisierung des Benutzers zu fordern.
Einzigartige Reihe von Erkennungstechniken	Spezialisierte Bot -Software, die auf die eindeutige Erkennungsfläche der Zielwebsite abzielt.	Gute Beispiele sind Sneakers Marketplace-Websites und E-Commerce-Läden, die Berichten zufolge von maßgeschneiderter Bot-Software stark angegriffen wurden.
Einfache maßgefertigte Erkennungstechniken	Bevor Sie in eines der oben genannten Einstendungen auf eine kleinere Website eintauchen, ist es sehr wahrscheinlich, dass Sie nur ein Scrapy-Skript mit Optimierungen, einem billigen Daten-Center-Proxy benötigen, und Sie können loslegen.	- -

Sobald Sie sich dafür entschieden haben, welche Art von Ausweichen in Ihrem Projekt benötigt wird, können Sie die folgende Liste verwenden, um den besten Anbieter für Ihr Projekt auszuwählen:

Hilfreiche Dienstleistungen

Typ	Service	Notiz
Proxy	Der soziale Proxy	Sehr zu empfehlen? ✔️ Profis : Die IP -Pools sind durchweg gut, entgegen den vorhandenen "großen Haie" der Proxy -Branche, die pro GB berechnet, erhalten Sie hier unbegrenzten Verkehr innerhalb eines rotierenden Endpunkts. Transparentes Geschäftsmodell. Nachteile: Die GEO -Berichterstattung ist auf die auf der Website aufgeführten Länder beschränkt. IP wird nicht sofort gedreht, aber Sie müssen lieber 10-15 Sekunden warten.
	Brightdata (ehemals Luminati Networks)	Einer der beliebtesten, aber wahrscheinlich auch der teuerste Proxy -Anbieter. Der IP -Pool stammt hauptsächlich von Benutzern von Holavpn und einer App -Monetisierungs -SDK.
	Oxylabs	Konkurrent von Brightdata mit mehr Code-/Low-Code-Schablonen-Produkten.
Als Service abkratzen	Scrapingbee	Sehr zu empfehlen? Eines der fortschrittlichsten Stealthy Scraping als Service. Manchmal kann es billiger sein, als eine dedizierte Krabbungslösung zu bauen - sie berechnen nicht die Menge des verwendeten Verkehrs.
Als Service abkratzen	Apify.com	Apify hat sich zu einer vollständigen SaaS-Plattform für Scraping and Automation mit vorbereiteten Tools, einem integrierten Proxy und benutzerdefinierten Lösungen für das Abkratzen in jeder Skala entwickelt. Entwickler können auch Schaber auf der Plattform erstellen und an andere Benutzer mieten.
De-captcha als Service	Anti Captcha: Captcha -Lösungsdienst. Bypass Recaptcha, Funcaptcha (...)	Selbsterklärend. Bitcoin akzeptierte ❤️.

Liste der Anti-Bot-Softwareanbieter

Dies ist eine nicht exexhustive Liste von Unternehmen, die die fortschrittlichsten Anti-Bot-Lösungen für Unternehmen bieten, die von kleineren E-Commerce-Websites bis hin zu Fortune 500-Unternehmen reichen:

Akamai Bot Manager von Akamai
Advanced Bot Protection durch Imperva (ehemalige Distil -Netzwerke)
Datadome Bot -Schutz
Perimeterx
Formensicherheit
Cloudflare Bot Management
Barracuda Advanced Bot -Schutz
MENSCHLICH
Kaskada
Alibaba Cloud Anti-Bot-Service
Travatar
MENSCHLICH
OCULE
Sieben
FORTER
Rebra
Arkose Labs
LexisNexis® BedrohungMetrix®

Woher weißt du, wer dich blockiert?

Treten Sie extra bei. Dort wird ein automatisiertes Tester Botty McBotface ausgeführt, das mehrere komplizierte Techniken verwendet, um zu bestimmen, welcher genaue Schutz eine getestete Website verwendet (Credits für Berstend und andere von #insiders).

Verfügbare Stealth -Browser mit Automatisierungsfunktionen

Wichtig, dass Sie diese Software auf eigenes Risiko verwenden. Einige von ihnen enthalten Malwares nur zu Ihrer Information. Ich empfehle nicht, sie zu verwenden.

Stealth -Browser	Puppenspieler	Selen	Ausgänge	SDK/Werkzeug	Herkunft
Gologin	✔️	✔️	?	?	? + ??
Inkogniton	✔️	✔️	?	✔️	? ❓
Clonbrowser	✔️	✔️	?	✔️	?
Multilogin	✔️	✔️	?	✔️	? + ??
Indigo -Browser	✔️	✔️	?	✔️	?
Ghostbrowser				?	?
KAMELEO	✔️	✔️	?	✔️	?
Antbrowser					?
Chebrowser			?/✔️	?	?

Legende :? - Ausweichen basierend auf Lärm. - Nr. ✔️ - akzeptabel (mit Support -Bibliotheken oder nicht). ? - Sehr schön.

A auf diesem Repo wird geschätzt !

Technische Einblicke in die Umgehung der Bot -Erkennung

Hier studiere ich verschiedene Aspekte von Ausweichentechniken, die verwendet werden, um Bot -Erkennungssysteme zu umgehen, die von großen Online -Websites verwendet werden. Ich behandle sowohl technische als auch nicht-technische Angelegenheiten, einschließlich Empfehlungen, Verweise auf wissenschaftliche Arbeiten und vieles mehr.

Die technischen Erkenntnisse, die ich unten teile, basieren auf Beobachtungen beim Ausführen von Web-Scraping-Skripten für einige Monate gegen Websites, die von den wichtigsten Anbietern von Anti-Bot-Lösungen geschützt sind.

Ich füge ständig Sachen zu diesem Abschnitt hinzu. Im Laufe der Zeit werde ich versuchen, es aussehen zu lassen und sich strukturierter zu fühlen.

Zufällig, vielleicht nützlich

CAP FPS für Chrom mit Software -Rendering -Use -GL = Swiftshader -Begrenzen Sie die CPU -Verwendung von Swiftshader durch neues Freq. von Chrom in AVD
Im Gegensatz zu einigen öffentlichen Kommentaren zu dieser Angelegenheit funktioniert Chrome Devtools Protokoll tatsächlich auf AVD-S mit Puppenspielern
Missbrauch von GPU -Cache, um anhaltende Tracking -Kennungen zu erstellen
Data WhiteOps (jetzt menschlich) sammelt (2020)

Puppeteer-Extra-Plugin-Stealth?

✔️ Win / Fail /? Binden :

✔️ Kunde Hinweise - kürzlich versendet. In Übereinstimmung mit der Chrom -CPP -Implementierung.
✔️ General navigator und window
✔️ Chrom -Plugins und native Erweiterungen - Dies beinhaltet sowohl die DRM -Erweiterung der Widevine -DRM als auch Google Hangouts, Safe -Browsing usw.
? P0F - Host -Betriebssystem aus TCP -Struktur erkennen - nicht über Puppenspieler -APIs zu reparieren. Wird im Akami-Bot-Manager verwendet, um gegen JS- und Browser-Header (Client-Hinweise und User-Agent ) übereinzustimmen. Es gibt eine detaillierte Erklärung des Problems. Die zuverlässigste Ausweichen scheint das Host-Betriebssystem überhaupt nicht zu fälschen oder Osfooler-ng zu verwenden.
? Browserabmessungen - Obwohl das Stealth -Plugin window.outerdimensions bietet. Fast immer fällt bei viewport size >= screen resolution (Anzeige mit niedriger Bildschirmauflösung auf dem Host).
Kernschätzer - Dies kann Mismatch zwischen Navigator erkennen. Nicht möglich, das Thread -Limit des ServiceWorker / WebWorker über existierende Puppenspieler -APIs zu begrenzen / zu stoßen.
WebGL -Erweiterungen Profilerstellung - Desc. TBD
Rtcpeerconnection, wenn sie hinter einem Proxy - für Socken und HTTP (S) Proxies gilt.
Performance.Now - Desc. TBD (rote Pille)
WebGL -Profilerstellung - Desc. TBD
Verhaltenserkennung - Desc. TBD (Ereignisse, Parameter, ML+AI Buzz)
Schriftart Fingerabdruck - Desc. TBD (Liste+Version+Renderer über HTML & Canvas)
Netzwerklatenz - Desc. TBD (Integritätsprüfung: Proxy Det., JS NetworkInfo, DNS Resolv Profiling & Timing)
Batterie -API - Desc. TBD
Gyroskop und andere (meist mobile) Gerätesensoren - Desc. TBD

Multilogin, Kameleo und andere?

General navigator und window - gemäß Multilogin -Dokumentationspunkt -Custom -Browser -Builds bleiben in der Regel hinter den neuesten Ergänzungen, die von Browseranbietern hinzugefügt wurden. In diesem Fall wird modifiziertes Chrom M7X verwendet (fast 10 Versionen dahinter, wenn Sie dies schreiben).
? Schriftbedeckung - Schriftfingerabdruck leckt noch Host -Betriebssystem aufgrund der Verwendung verschiedener Schriftarten von Schriftarten auf Win/Lin/Mac. Die grundlegende "Schriftart Whitelisting" -Technik kann jedoch dazu beitragen, den Browser -Fingerabdruck leicht zu drehen.
Inkonsistenzen - Profilmehlkonfiguration führt zur Erkennung von Inkonsibilität in der frühen Eigentum/des Verhaltens.
Native Erweiterungen -Im Gegensatz zu puppeteer-extra-plugin-stealth -Chrom-Chrom-Builds wie ML und Kameleo bieten höchstens eine Überschreibung für native Plugins und Erweiterungen, die mit Google Chrome geliefert werden.
Audiocontext -APIs und WebGL -Eigenschaft Override - Manipulation von Original -Leinwand und Audiowellenform kann mit benutzerdefinierten JS erkannt werden.
✔️ Audio- und GL -Rauschen

TBD (Wenn Sie ein aktives Abonnement in einem dieser Dienste haben und es nichts ausmacht, ein Konto zu teilen, geben Sie mir eine E -Mail -E -Mail.

Fingerabdruck -Testseiten

Diese Websites können nützlich sein, um Fingerabdrucktechniken mit einer Web -Scraping -Software zu testen

Testseite	Notizen
https://bot.incolumitas.com/	Sehr hilfsbereite und nützliche Sammlung von Tests
https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html	Fingerabdruck von Leinwand auf Steroiden
https://pixelscan.net/	Nicht 100% reciblik, da es nach einem neuen Update häufig "inkonsistent" gegenüber Chrome zeigt, aber es lohnt
https://browserleaks.com/	Braucht keine Einführung
https://f.vision/	Gute Testseite von einigen? Jungs
https://www.ipqualityscore.com/ip-reputation-check	Kommerzieller Service mit kostenlosen Reputationscheck gegen beliebte Blacklists
https://antcpt.com/eng/information/demo-form/recaptcha-3-Test-score.html	Recaptcha Score sowie einige interessante Hinweise zur Optimierung der CAPTCHA -Lösungskosten
https://ja3er.com/	SSL/TLS -Fingerabdruck
https://fingerprintjs.com/demo/	Gut für grundlegende Tests - von Menschen, die glauben und behaupten können, können einzigartige Fingerabdrücke "99,5%" der Zeit schaffen
https://coveryourtracks.eff.org/	- -
https://www.deviceInfo.me/	- -
https://amiunique.org/	- -
http://uniquemachine.org/	- -
http://dnscookie.com/	- -
https://whatleaks.com/	- -
https://antcpt.com/eng/information/demo-form/recaptcha-3-Test-score.html	Überprüfen Sie Ihre Recaptcha -Punktzahl
https://antoinevastel.com/bots/	- -
https://antoinevastel.com/bots/datadome	- -
https://iphey.com/	- -
https://bot.sannysoft.com/	- -
https://webbrowsertools.com/canvas-fingerprint/	- -
https://webbrowsertools.com/webgl-fingerprint/	- -
https://fingerprint.com/products/bot-detction/	- -
https://abrahamjuliot.github.io/creepjs/	Wirklich gruselig, der stärkste von allen

Nichttechnische Notizen

Ich muss eine allgemeine Bemerkung gegenüber Personen machen, die auf ihren Websites eine Anti-BOT-Software einbeziehen (und/oder), die Anti-Bot-Software einführen. Anti-Bot-Software ist Unsinn. Sein Schlangenöl verkauft an Menschen ohne technische Kenntnisse für schwere Dollars.

Das Blockieren des Bot -Verkehrs basiert auf der Prämisse, die Sie (oder Ihr Technologieanbieter) Bots von echten Benutzern unterscheiden können. Damit werden verschiedene Datenschutz-invasive Techniken angewendet. Bisher hat sich keiner von ihnen als erfolgreich gegen spezielle Web -Scraping -Tools erwiesen. Bei Anti-Bot-Software geht es darum, den billigen Bot-Verkehr zu reduzieren. Es macht den Prozess, teurer und komplizierter zu kratzen, aber es macht es nicht völlig unmöglich .

Anti-Bot-Softwareanbieter verwenden Erkennungstechniken, die in eine dieser beiden Kategorien fallen:

Binäre Erkennung

Es wird keine spezielle Web -Scraping -Software verwendet. Der Anbieter kann den schlechten Datenverkehr basierend auf Informationen erkennen, die offen vom Schaber- User-Agent Header, Verbindungsparameter usw. offenbart werden usw.

Infolgedessen sind nur Bots, die nicht darauf ausgerichtet sind, bestimmte Website zu kratzen, blockiert . Dies wird die meisten Manager glücklich machen, da die Gesamtzahl des schlechten Verkehrs sinkt und es möglicherweise so aussieht, als ob kein Bot -Verkehr mehr auf der Website vorhanden ist. Falsch.

Verkehrsclustering

Fortgeschrittene Web-Scrapers nutzen Wohnproxies und implementieren komplexe Ausweichentechniken, um Anti-Bot-Software zu täuschen, um zu glauben, dass der Web-Schaber ein echter Benutzer ist. Aufgrund der technischen Begrenzung von Webbrowsern gibt es keinen Erkennungsmechanismus.

In diesem Fall kann der Anbieter die meiste Zeit nur den schlechten Datenverkehr zusammenschließen , indem er Muster im Bot -Verkehr und Verhalten findet. Hier kommt der Browser -Fingerabdruck ins Spiel. Das Problem beim Verbot des Verkehrs hier ist, dass es sich als riskantes Betrieb herausstellen kann, wenn Bots erfolgreich echte Benutzer nachahmen. Es besteht die Möglichkeit, dass die Website durch Blockieren von Bots für echte Besucher nicht verfügbar ist .

Gateways, Captchas & Co.

Wenn Sie der Meinung sind, dass dies ein Weg ist, Google "Captcha Resolve API" zu machen.

Unterstützung

Wenn Sie Probleme mit dem Abkratzen einer bestimmten Website haben, schreiben Sie mir eine kurze E -Mail an [email protected] . Lassen Sie uns eine schnelle Tête-à-Tête-Beratung über Skype haben?

Habe ich erwähnt, dass A geschätzt werden würde? :-)

➡️ Ethereum Adresse 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6

Expandieren

Zusätzliche Informationen