Le développement de ce référentiel n'aurait pas été possible sans le soutien de nombreux partenaires et sponsors. L'un de ces partenaires est SctringBee, qui est un service de grattage Web cloud avec des fonctionnalités de détection anti-BOT intégrées soignées.
SctringBee - Inscrivez-vous à un essai gratuit et obtenez -10% sur la première facture avec le code "niespodd"
Que vous commenciez à créer un grattoir Web à partir de zéro et que vous vous demandez ce que vous faites de mal parce que votre solution ne fonctionne pas, ou que vous travailliez déjà avec des robots de robots et que vous êtes coincé sur une page qui vous donne une erreur en disant que vous êtes un bot, vous ne pouvez pas aller plus loin, continuez à lire.
Les solutions anti-bot ont évolué ces dernières années. De plus en plus de sites Web introduisent des mesures de sécurité: des simples, telles que le filtrage des adresses IP en fonction de leur géolocalisation, à celles avancées sur la base d'une analyse approfondie des paramètres du navigateur et de l'analyse comportementale. Tout cela rend le contenu du grattage Web plus difficile et coûteux qu'il y a quelques années. Néanmoins, c'est toujours possible. Ici, je souligne quelques conseils que vous pourriez trouver utiles.
Vous trouverez ci-dessous la liste des services organisés que j'ai utilisés pour contourner différentes protections anti-Bot. Selon votre cas d'utilisation, vous aurez peut-être besoin de l'un des éléments suivants:
| Scénario / utilisation | Solution | Exemple |
|---|---|---|
| Séances de courte durée | Pool d'adresses IP rotatives | Cela est utile lorsque vous grattez des sites Web comme Amazon, Walmart ou Public LinkedIn. C'est tout site Web où aucune connexion n'est requise. Vous prévoyez de faire un nombre élevé de sessions de courte durée et pouvez vous permettre d'être bloqué de temps en temps. |
| Sites Web géographiquement restreintes | Pool spécifique à la région d'adresses IP | Ceci est utile lorsque le site Web utilise un pare-feu similaire à celui de CloudFlare pour empêcher toute la géographie d'y accéder. |
| Sessions à longue durée de vie après la connexion | Pool répétable d'adresses IP et ensemble stable d'empreintes digitales du navigateur | Le scénario le plus courant ici est l'automatisation des médias sociaux, par exemple, vous créez un outil pour automatiser les comptes de médias sociaux pour gérer plus efficacement les publicités. |
| Détection basée sur JavaScript | Utilisation de bibliothèques d'évasion populaires, similaires à la marionnettiste-extra-plugin-étanchéité | Il existe un certain nombre de sites Web utilisant des empreintes digitales qui peuvent être facilement contournées lorsque vous utilisez des plugins open-source tels que le plugin de marionnettiste susmentionné pour travailler avec votre logiciel existant. |
| Détection avec les techniques d'empreintes digitales du navigateur | Empreintes digitales de navigateur à l'aspect naturel. Autrement dit, après avoir couvert toute la surface qui est validée par la solution JavaScript installée sur le site Web Target. | Ce sont l'un des cas les plus avancés. Les exemples grand public sont des processeurs de cartes de crédit tels que Adyen ou Stripe. Une empreinte digitale de navigateur très sophistiqué est en cours de création pour détecter la fraude au crédit ou provoquer une autorisation supplémentaire de l'utilisateur. |
| Ensemble unique de techniques de détection | Logiciel BOT spécialisé qui cible la surface de détection unique du site Web cible. | Les bons exemples sont les sites Web de baskets sur le marché et les magasins de commerce électronique, qui auraient été lourds à partir de logiciels BOT sur mesure. |
| Techniques de détection sur mesure simples | Avant de plonger dans l'un des éléments ci-dessus, si vous ciblez un site Web plus petit, il est très probable que tout ce dont vous avez besoin est un script de scracy avec des ajustements, un proxy de centre de données bon marché et vous êtes prêt à partir. | - |
Une fois que vous avez décidé du type d'évasion qui sera nécessaire dans votre projet, vous pouvez utiliser la liste ci-dessous pour choisir le meilleur fournisseur pour votre projet:
| Taper | Service | Note |
|---|---|---|
| Procuration | Le proxy social ![]() | Hautement recommandé? ✔️ PROS : Les pools IP sont toujours bons, contrairement aux "gros requins" existants de l'industrie de la procuration qui facturent par Go, ici vous obtenez un trafic illimité dans un point final rotatif. Modèle commercial transparent. Inconvénients: la couverture GEO est limitée aux pays énumérés sur le site Web. L'IP n'est pas tournée instantanément, mais vous avez plutôt pu attendre 10-15 secondes. |
BrightData (anciennement Luminati Networks)![]() | L'un des plus populaires, mais probablement aussi le fournisseur de procuration le plus cher. Le pool IP provient principalement des utilisateurs de HOLAVPN et d'un SDK de monétisation d'application. | |
Oxylab![]() | Concurrent de BrightData avec plus de produits de grattage sans code / faible code. | |
| Gratter en tant que service | Grattage![]() | Hautement recommandé? L'un des grattages furtifs les plus avancés en tant que service. Parfois, il peut être moins cher que de construire une solution de grattage dédiée - ils ne facturent pas la quantité de trafic utilisé. |
Apify.com![]() | Apify est devenu une plate-forme complete de grattage et d'automatisation SaaS, avec des outils prêts à l'emploi, un proxy intégré et des solutions personnalisées pour le grattage à n'importe quelle échelle. Les développeurs peuvent également créer des grattoirs sur la plate-forme et les louer à d'autres utilisateurs. | |
| Dé-Captcha comme service | Anti captcha: service de résolution de captcha. Bypass recaptcha, funcaptcha (...)![]() | Auto-explicatif. Bitcoin a accepté ❤️. |
Il s'agit d'une liste non exhaustive d'entreprises qui fournissent les solutions anti-BOT les plus avancées pour des entreprises allant des plus petits sites de commerce électronique aux entreprises du Fortune 500:

Rejoignez Extra.Community. Il y a un testeur automatisé Botty McBotface qui utilise plusieurs techniques compliquées pour déterminer quelle protection exacte utilise un site Web testé (crédits à Berstend et autres de #Insiders).
Important, vous utilisez ce logiciel à vos propres risques. Certains d'entre eux contiennent des malwares juste pour info. Je ne recommande pas de les utiliser.
| Navigateur furtif | Marionnettiste | Sélénium | Évasions | SDK / outillage | Origine |
|---|---|---|---|---|---|
| Gologine | ✔️ | ✔️ | ? | ? | ?? + ?? |
| Incognion | ✔️ | ✔️ | ? | ✔️ | ?? ❓ |
| Clonbrowser | ✔️ | ✔️ | ? | ✔️ | ?? |
| Multilogine | ✔️ | ✔️ | ? | ✔️ | ?? + ?? |
| Navigateur indigo | ✔️ | ✔️ | ? | ✔️ | ?? |
| Borne | ? | ?? | |||
| Kameleo | ✔️ | ✔️ | ? | ✔️ | ?? |
| Antbrowser | ?? | ||||
| Chebrowser | ? / ✔️ | ? | ?? |
Légende: ? - Évasion basée sur le bruit. - Non. ✔️ - acceptable (avec des bibliothèques de support ou non). ? - Très agréable.
A sur ce dépôt sera apprécié !
Ici, j'étudie divers aspects des techniques d'évasion utilisés pour contourner les systèmes de détection de bot utilisés par les principaux sites Web en ligne. Je couvre des questions techniques et non techniques, y compris des recommandations, des références à des articles scientifiques et plus encore.
Les résultats techniques que je partage ci-dessous sont basés sur les observations de l'exécution de scripts de grattage Web pendant quelques mois contre les sites Web protégés par les principaux fournisseurs de solutions anti-bot.
J'ajoute constamment des choses à cette section. Au fil du temps, j'essaierai de le rendre et de me sentir plus structuré.
✔️ Win / Fail /? Cravate :
navigator général et propriétés windowUser-Agent ). Il y a une explication détaillée du problème. L'évasion la plus fiable ne semble pas du tout ne s'identifier pas du tout, ni utiliser Osfooler-NG.window.outerdimensions Evasion, il ne fonctionnera pas sans configuration correcte sur le système d'exploitation non défaut en mode sans tête; Échoue presque toujours lorsque viewport size >= screen resolution (affichage de résolution à faible écran sur l'hôte).ServiceWorker / WebWorker via des API de marionnet existant.navigator et window - Selon la documentation multilogine, les versions de navigateur personnalisées sont généralement à la traîne des derniers ajouts ajoutés par les fournisseurs de navigateur. Dans ce cas, le chrome modifié M7X est utilisé (près de 10 versions derrière lors de l'écriture de ceci).puppeteer-extra-plugin-stealth bouteTBD (si vous avez un abonnement actif dans l'un de ces services et que cela ne vous dérange pas de partager un compte, envoyez-moi un e-mail ❤️)
Ces sites Web peuvent être utiles pour tester les techniques d'empreintes digitales contre un logiciel de grattage Web
| Page de test | Notes |
|---|---|
| https://bot.incomitas.com/ | Collection très utile et utile de tests |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | Empreinte digitale sur toile sur les stéroïdes |
| https://pixelscan.net/ | Pas à 100% réel car il affiche souvent "incohérent" à Chrome après une nouvelle mise à jour, mais qui vaut la peine d'être vérifié car l'auteur ajoute de nouvelles fonctionnalités de détection intéressantes de temps en temps |
| https://browserleaks.com/ | N'a pas besoin d'introduction |
| https://f.vision/ | Page de test de bonne qualité de certains ?? les gars |
| https://www.ipqualityscore.com/ip-reputation-check | Service commercial avec vérification de réputation gratuite contre les listes noires populaires |
| https://antcpt.com/eng/information/demo-for/recaptcha-3-test-score.html | Score de recaptcha ainsi que quelques notes intéressantes sur la façon d'optimiser les coûts de résolution de CAPTCHA |
| https://ja3er.com/ | Empreinte digitale SSL / TLS |
| https://fingerprintjs.com/demo/ | Bon pour les tests de base - des personnes qui croient et prétendent peuvent créer des empreintes digitales uniques "99,5%" du temps |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://aminunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-for/recaptcha-3-test-score.html | Vérifiez votre score Recaptcha |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-dection/ | - |
| https://abrahamjuot.github.io/creepjs/ | Vraiment effrayant, le plus fort de tous |
J'ai besoin de faire une remarque générale aux personnes qui évaluent (et / ou) qui prévoient d'introduire des logiciels anti-bot sur leurs sites Web. Le logiciel anti-Bot est absurde. Son huile de serpent s'est vendue aux personnes sans connaissance technique pour les dollars lourds.
Le blocage du trafic de bot est basé sur la prémisse que vous (ou votre fournisseur de technologie) pouvez distinguer les robots des vrais utilisateurs . Pour y arriver, diverses techniques invasives de la vie privée sont appliquées. À ce jour, aucun d'entre eux s'est avéré réussir contre des outils de grattage Web spécialisés. Le logiciel anti-Bot consiste à réduire le trafic de bot bon marché. Cela rend le processus de grattage plus cher et compliqué, mais ne le rend pas tout à fait impossible .
Les fournisseurs de logiciels anti-Bot utilisent des techniques de détection qui entrent dans l'une de ces deux catégories:
Aucun logiciel de grattage Web spécialisé n'est utilisé. Le fournisseur peut détecter le mauvais trafic en fonction des informations divulguées ouvertement par l' User-Agent -tête du grattoir, par exemple, les paramètres de connexion, etc.
En conséquence, seuls les robots qui ne sont pas destinés à gratter le site Web spécifique sont bloqués . Cela rendra la plupart des gestionnaires heureux, car le nombre global de mauvais trafic baisse et il peut presque sembler qu'il n'y a plus de trafic bot sur le site Web. Faux.
Les grattoirs Web plus avancés utilisent des proxys résidentiels et mettent en œuvre des techniques d'évasion complexes pour tromper les logiciels anti-bot pour penser que le grattoir Web est un véritable utilisateur. Aucun mécanisme de détection n'existe pour contourner cela en raison de la limitation technique des navigateurs Web.
Dans ce cas, la plupart du temps, le vendeur ne sera en mesure de regrouper le mauvais trafic en trouvant des modèles dans le trafic et le comportement des robots. C'est là que les empreintes digitales du navigateur entrent en jeu. Le problème avec l'interdiction du trafic ici est qu'il peut se révéler être une opération risquée lorsque les bots imitent avec succès les vrais utilisateurs. Il y a une chance qu'en bloquant les robots, le site Web deviendra indisponible pour les vrais visiteurs .
Si vous pensez que c'est une façon d'aller Google "Captcha Resolve API".
Si vous avez des problèmes de grattement de site Web spécifique, écrivez-moi un court e-mail à [email protected] . Ayons une consultation rapide de la tête-à-Tête via Skype ?.
Ai-je mentionné que un serait apprécié? :-)
➡️ Adresse Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6