O desenvolvimento deste repositório não teria sido possível sem o apoio de muitos parceiros e patrocinadores. Um desses parceiros é o ScrapingBee, que é um serviço de raspagem na Web em nuvem com alguns recursos de detecção anti-BOT embutidos.
ScrapingBee - Inscreva -se para uma avaliação gratuita e obtenha -10% na primeira fatura com o código "niespodd"
Se você está começando a criar um raspador da web a partir do zero e se perguntando o que está fazendo de errado porque sua solução não está funcionando, ou você já trabalha com rastreadores há um tempo e está preso em uma página que lhe dá um erro dizendo que você é um bot, você não pode ir mais longe, continue lendo.
As soluções anti-BOT evoluíram nos últimos anos. Mais e mais sites estão introduzindo medidas de segurança: de simples, como filtrar endereços IP de acordo com sua geolocalização, a avançados com base na análise aprofundada dos parâmetros do navegador e da análise comportamental. Tudo isso torna o conteúdo de raspagem na web mais difícil e caro do que alguns anos atrás. No entanto, ainda é possível. Aqui eu destaquei algumas dicas que você pode achar útil.
Abaixo, você pode encontrar a lista de serviços selecionados que eu costumava contornar diferentes proteções anti-BOT. Dependendo do seu caso de uso, você pode precisar de um dos seguintes:
| Cenário/caixa de uso | Solução | Exemplo |
|---|---|---|
| Sessões de curta duração sem auth | Pool de endereços IP rotativos | Isso é útil quando você raspa sites como Amazon, Walmart ou Public LinkedIn Pages. Esse é qualquer site em que nenhum login é necessário. Você planeja fazer um grande número de sessões de curta duração e pode se dar ao luxo de ser bloqueado de vez em quando. |
| Sites geograficamente restritos | Pool específico da região de endereços IP | Isso é útil quando o site usa um firewall semelhante ao da Cloudflare para impedir que a geografia inteira o acesse. |
| Sessões de vida longa após login | Pool repetível de endereços IP e conjunto estável de impressões digitais do navegador | O cenário mais comum aqui é a automação de mídia social, por exemplo, você cria uma ferramenta para automatizar contas de mídia social para gerenciar anúncios com mais eficiência. |
| Detecção baseada em JavaScript | Uso de bibliotecas de evasão populares, semelhantes às fantoches-extras-plugin-stealth | Há vários sites que utilizam impressões digitais que podem ser facilmente ignoradas quando você emprega plugins de código aberto, como o plug-in de marionetistas mencionado acima mencionado para trabalhar com seu software existente. |
| Detecção com técnicas de impressão digital do navegador | Impressões digitais do navegador de aparência natural. Ou seja, tendo abordado toda a superfície que está sendo validada pela solução JavaScript instalada no site de destino. | Estes são um dos casos mais avançados. Exemplos convencionais são processadores de cartão de crédito, como Adyen ou Stripe. Uma impressão digital do navegador muito sofisticada está sendo criada para detectar fraude de crédito ou solicitar autorização adicional do usuário. |
| Conjunto exclusivo de técnicas de detecção | Software BOT especializado que tem como alvo a superfície de detecção exclusiva do site de destino. | Bons exemplos são sites do mercado de tênis e lojas de comércio eletrônico, supostamente sob ataque pesado do software BOT personalizado. |
| Técnicas simples de detecção personalizadas | Antes de mergulhar em qualquer um dos itens acima, se você estiver segmentando um site menor, é muito provável que tudo o que você precise seja um script de scrapy com ajustes, um proxy barato de center de dados e você está pronto. | - |
Depois de decidir que tipo de evasão será necessário em seu projeto, você poderá usar a lista abaixo para escolher o melhor provedor para o seu projeto:
| Tipo | Serviço | Observação |
|---|---|---|
| Proxy | O proxy social ![]() | Altamente recomendado? ✔️ Prós : os pools de IPs são consistentemente bons, ao contrário dos "grandes tubarões" existentes da indústria de procuração que cobra por GB, aqui você recebe tráfego ilimitado dentro de um terminal rotativo. Modelo de negócios transparente. Contras: A cobertura GEO é limitada aos países listados no site. O IP não é girado instantaneamente, mas você prefere esperar de 10 a 15 segundos. |
BrightData (anteriormente redes Luminati)![]() | Um dos mais populares, mas provavelmente também o provedor de procuração mais caro. O pool IP é proveniente principalmente dos usuários do Holavpn e um SDK de monetização do aplicativo. | |
Oxylabs![]() | Concorrente do BrightData com mais produtos de raspagem sem código/baixo código. | |
| Raspando como um serviço | ScrapingBee![]() | Altamente recomendado? Uma das raspagens furtivas mais avançadas como serviço. Às vezes, pode ser mais barato do que construir uma solução de raspagem dedicada - eles não cobram pela quantidade de tráfego usado. |
Apify.com![]() | O APIFY evoluiu para uma plataforma de SaaS de raspagem e automação completa, com ferramentas prontas, um proxy integrado e soluções personalizadas para raspar em qualquer escala. Os desenvolvedores também podem criar raspadores na plataforma e alugá -los para outros usuários. | |
| De-capitcha como um serviço | Anti Captcha: Serviço de Resolução de Captcha. Bypass Recaptcha, funcaptcha (...)![]() | Auto-explicativo. Bitcoin aceitou ❤️. |
Esta é uma lista não exaustiva de empresas que fornecem as soluções anti-BOT mais avançadas para empresas que variam de sites de comércio eletrônico menores a empresas da Fortune 500:

Junte -se a Extra.Community. Existe um Botty McBotface automatizado que usa várias técnicas complicadas para determinar qual proteção exata um site testado usa (créditos para Berstend e outros da #InSiders).
Importante você usa este software por sua conta e risco. Alguns deles contêm malwares apenas para sua informação. Eu não recomendo usá -los.
| Navegador furtivo | Marionetista | Selênio | Evasões | SDK/Tooling | Origem |
|---|---|---|---|---|---|
| Gologin | ✔️ | ✔️ | ? | ? | ? + ?? |
| Incogniton | ✔️ | ✔️ | ? | ✔️ | ? ❓ |
| Clonbrowser | ✔️ | ✔️ | ? | ✔️ | ? |
| Multilogin | ✔️ | ✔️ | ? | ✔️ | ? + ?? |
| Navegador Indigo | ✔️ | ✔️ | ? | ✔️ | ? |
| Ghostbrowser | ? | ? | |||
| Kameleo | ✔️ | ✔️ | ? | ✔️ | ? |
| Antbrowser | ? | ||||
| Chebrowser | ?/✔️ | ? | ? |
Lenda: ? - evasão baseada no ruído. - Não. ✔️ - aceitável (com bibliotecas de suporte ou não). ? - Muito legal.
A neste repositório será apreciado !
Aqui, estudo vários aspectos das técnicas de evasão usadas para contornar os sistemas de detecção de bot usados pelos principais sites on -line. Cubro assuntos técnicos e não técnicos, incluindo recomendações, referências a artigos científicos e muito mais.
As descobertas técnicas que estou compartilhando abaixo são baseadas em observações de execução de scripts de raspagem na web por alguns meses contra sites protegidos pelos principais fornecedores de solução anti-BOT.
Eu constantemente adiciono coisas a esta seção. Com o tempo, tentarei fazê -lo parecer e me sentir mais estruturado.
✔️ Win / Fail /? Gravata :
navigator geral e propriedades windowUser-Agent ). Há uma explicação detalhada da questão. A evasão mais confiável parece não estar falsificando o sistema operacional host, ou usando osfooler-ng.window.outerdimensions . Quase sempre falha quando viewport size >= screen resolution (baixa resolução da tela no host).ServiceWorker / WebWorker por meio de APIs de marionetistas existentes.navigator e window - conforme a documentação multilogina, as compilações personalizadas do navegador normalmente ficam atrás das últimas adições adicionadas pelos fornecedores do navegador. Nesse caso, o Chromium M7X modificado é usado (quase 10 versões atrás ao escrever isso).puppeteer-extra-plugin-stealth construções de cromo personalizadas, como ML e Kameleo, fornecem, no máximo, uma substituição para plugins e extensões nativos enviados com o Google Chrome.TBD (se você tiver uma assinatura ativa em qualquer um desses serviços e não se importa em compartilhar uma conta, envie -me um e -mail ❤️)
Esses sites podem ser úteis para testar técnicas de impressão digital em um software de raspagem na web
| Página de teste | Notas |
|---|---|
| https://bot.incolumitas.com/ | Coleção muito útil e útil de testes |
| https://plaperdr.github.io/morellian-anvas/prototype/webpage/picassauth.html | impressão digital de lona em esteróides |
| https://pixelscan.net/ | Não é 100% realável, pois geralmente exibe "inconsistente" ao Chrome após uma nova atualização, mas vale a pena verificar, pois o autor adiciona novos recursos interessantes de detecção de vez em quando |
| https://browsserleaks.com/ | Não precisa de introdução |
| https://f.vision/ | Página de teste de boa qualidade de alguns ?? pessoal |
| https://www.ipqualityscore.com/ip-reputation-check | Serviço comercial com verificação de reputação gratuita contra listas negras populares |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Recaptcha Score, bem como algumas notas interessantes sobre como otimizar os custos de resolução do captcha |
| https://ja3er.com/ | Impressão digital SSL/TLS |
| https://fingerprintjs.com/demo/ | Bom para testes básicos - de pessoas que acreditam e afirmam pode criar impressões digitais exclusivas "99,5%" da época |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Verifique sua pontuação de recaptcha |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detecção/ | - |
| https://abrahamjuliot.github.io/creepjs/ | Realmente assustador, o mais forte de todos |
Preciso fazer uma observação geral para as pessoas que estão avaliando (e/ou) planejando introduzir software anti-BOT em seus sites. O software anti-BOT é um absurdo. Seu óleo de cobra foi vendido a pessoas sem conhecimento técnico por dólares pesados.
Bloquear o tráfego de bot é baseado na premissa de que você (ou seu provedor de tecnologia) pode distinguir bots de usuários reais . Para fazer isso acontecer, são aplicadas várias técnicas invasivas à privacidade. Até o momento, nenhum deles provou ser bem -sucedido contra ferramentas especializadas de raspagem na web. O software anti-BOT tem tudo a ver com reduzir o tráfego de bot barato. Isso torna o processo de raspar mais caro e complicado, mas não o torna totalmente impossível .
Os fornecedores de software anti-BOT usam técnicas de detecção que se enquadram em uma dessas duas categorias:
Nenhum software de raspagem da Web especializado é usado. O fornecedor pode detectar o tráfego ruim com base nas informações divulgadas abertamente pelo cabeçalho do User-Agent do raspador, parâmetros de conexão etc.
Como resultado , apenas os bots que não são direcionados para raspar o site específico estão bloqueados . Isso deixará a maioria dos gerentes felizes, porque o número total de tráfego ruim diminui e quase parece que não há mais tráfego de bot no site. Errado.
Os raspadores da Web mais avançados fazem uso de proxies residenciais e implementam técnicas complexas de evasão para enganar o software anti-BOT para pensar que o raspador da web é um usuário real. Não existe mecanismo de detecção para contornar isso devido à limitação técnica dos navegadores da Web.
Nesse caso, na maioria das vezes o fornecedor só poderá agrupar o tráfego ruim encontrando padrões no tráfego e no comportamento de bot. É aqui que a impressão digital do navegador entra em jogo. O problema de proibir o tráfego aqui é que ele pode ser uma operação arriscada quando os bots estão imitando com sucesso usuários reais. Há uma chance de que , ao bloquear os bots, o site ficará indisponível para visitantes reais .
Se você acha que esse é um caminho para ir ao Google "Captcha Resolve API".
Se você tiver problemas em raspar o site específico, escreva -me um e -mail curto em [email protected] . Vamos ter uma rápida consulta de Tête-à-tête via Skype?
Eu mencionei que um seria apreciado? :-)
Endereço Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6