이 저장소의 개발은 많은 파트너와 스폰서의 지원 없이는 불가능했을 것입니다. 이러한 파트너 중 하나는 Scrapingbee입니다.이 파트너는 깔끔한 내장 방지 탐지 기능을 갖춘 클라우드 웹 스크래핑 서비스입니다.
ScrapingBee- 무료 평가판에 가입하고 코드 "NIESPODD"가있는 첫 번째 송장에서 -10%를 얻습니다.
솔루션이 작동하지 않기 때문에 웹 스크레이퍼를 처음부터 구축하기 시작했거나 이미 크롤러와 함께 일하고 있었고 봇이라는 오류를주는 페이지에 갇혀 있으면 더 이상 갈 수 없으며 계속 읽으십시오.
최근 몇 년 동안 안티 버전 솔루션이 발전했습니다. 점점 더 많은 웹 사이트가 보안 조치를 도입하고 있습니다. 지리적 위치에 따른 IP 주소 필터링과 같은 간단한 웹 사이트에서 브라우저 매개 변수의 심층 분석 및 행동 분석에 기반한 고급 제품에 이르기까지. 이 모든 것이 웹 스크래핑 컨텐츠를 몇 년 전보다 더 어렵고 비용이 많이 듭니다. 그럼에도 불구하고 여전히 가능합니다. 여기에서 도움이 될 수있는 몇 가지 팁을 강조합니다.
아래에서 여러분은 다른 방지 방지 보호를 얻는 데 사용했던 선별 된 서비스 목록을 찾을 수 있습니다. 사용 사례에 따라 다음 중 하나가 필요할 수 있습니다.
| 시나리오/사용 사례 | 해결책 | 예 |
|---|---|---|
| 인증없이 단기 세션 | 회전 IP 주소 풀 | Amazon, Walmart 또는 Public LinkedIn 페이지와 같은 웹 사이트를 긁을 때 편리합니다. 로그인이 필요하지 않은 웹 사이트입니다. 당신은 많은 수의 짧은 세션을 만들 계획이며 때때로 막을 수있을 수 있습니다. |
| 지리적으로 제한된 웹 사이트 | 지역별 IP 주소 풀 | 이는 웹 사이트가 CloudFlare의 방화벽과 유사한 방화벽을 사용하여 전체 지리에 액세스하는 것을 차단할 때 유용합니다. |
| 로그인 후 오래 지속 된 세션 | 반복 가능한 IP 주소 풀 및 안정적인 브라우저 지문 세트 | 여기에서 가장 일반적인 시나리오는 소셜 미디어 자동화 (예 : 소셜 미디어 계정을 자동화하여 광고를보다 효율적으로 관리하는 도구를 구축하는 것입니다. |
| JavaScript 기반 탐지 | Puppeteer-Extra-Plugin-Stealth와 유사한 인기 회피 라이브러리 사용 | 지문을 사용하는 여러 웹 사이트가 있으며, 앞서 언급 한 인형극 스텔스 플러그인과 같은 오픈 소스 플러그인을 사용하여 기존 소프트웨어와 함께 작동 할 때 쉽게 우회 할 수있는 웹 사이트가 있습니다. |
| 브라우저 지문 기술로 감지 | 자연스럽게 보이는 브라우저 지문. 즉, 대상 웹 사이트에 설치된 JavaScript 솔루션으로 검증되는 전체 표면을 덮었습니다. | 이것들은 가장 진보 된 사례 중 하나입니다. 주류 예는 Adyen 또는 Stripe와 같은 신용 카드 프로세서입니다. 신용 사기를 감지하거나 사용자로부터 추가 승인을 받기 위해 매우 정교한 브라우저 지문이 만들어지고 있습니다. |
| 고유 한 탐지 기술 세트 | 대상 웹 사이트의 고유 한 탐지 표면을 목표로하는 특수 봇 소프트웨어. | 좋은 예는 스니커즈 마켓 플레이스 웹 사이트와 전자 상거래 상점으로, 맞춤형 봇 소프트웨어의 공격을 받고있는 것으로 알려졌다. |
| 간단한 맞춤형 탐지 기술 | 위의 어느 쪽이든 다이빙하기 전에 더 작은 웹 사이트를 목표로하는 경우 조정, 저렴한 데이터 센터 프록시가있는 스크레이프 스크립트 만 있으면됩니다. | - |
프로젝트에서 어떤 유형의 회피가 필요한지 결정하면 아래 목록을 사용하여 프로젝트에 가장 적합한 제공 업체를 선택할 수 있습니다.
| 유형 | 서비스 | 메모 |
|---|---|---|
| 대리 | 사회적 대리 ![]() | 적극 권장합니까? ✔️ pros : IP 풀은 GB 당 청구되는 프록시 산업의 기존 "빅 상어"와 달리 지속적으로 우수합니다. 여기서 회전 엔드 포인트 내에서 무제한 트래픽을 얻습니다. 투명한 비즈니스 모델. 단점 : GEO 적용 범위는 웹 사이트에 나열된 국가로 제한됩니다. IP는 즉시 회전하지 않지만 10-15 초 기다려야합니다. |
BrightData (이전 루미나티 네트워크)![]() | 가장 인기가 있지만 아마도 가장 비싸고 프록시 제공 업체 중 하나입니다. IP 풀은 주로 HolaVPN 사용자와 앱 수익 창출 SDK로부터 공급됩니다. | |
옥실 라브![]() | 더 많은 코드/저 코드 스크래핑 제품을 사용하여 BrightData의 경쟁자. | |
| 서비스로 긁어냅니다 | Scrapingbee![]() | 적극 권장합니까? 서비스로서 가장 진보 된 은밀한 스크래핑 중 하나. 때때로 전용 스크래핑 솔루션을 구축하는 것보다 저렴할 수 있습니다. 사용 된 트래픽의 양을 청구하지 않습니다. |
apify.com![]() | Apify는 기성품 도구, 통합 프록시 및 모든 규모의 스크래핑을위한 맞춤형 솔루션을 갖춘 완전한 스크래핑 및 자동화 SaaS 플랫폼으로 발전했습니다. 개발자는 플랫폼에서 스크레이퍼를 만들어 다른 사용자에게 대여 할 수 있습니다. | |
| 서비스로서의 de-captcha | 안티 빌프 샤 : 보안 문자 해결 서비스. Bypass Recaptcha, funcaptcha (...)![]() | 자기 설명. 비트 코인이 받아 들여졌다. |
이는 소규모 전자 상거래 사이트에서 Fortune 500 대 기업에 이르기까지 비즈니스에 가장 진보 된 안티 보트 솔루션을 제공하는 비 유명한 회사 목록입니다.

엑스트라에 가입하십시오. 자동화 된 테스터 인 Botty McBotface 가 실행되어 여러 가지 복잡한 기술을 사용하여 테스트 된 웹 사이트가 사용하는 정확한 보호 (Berstend 및 #Insiders의 다른 사람들에게 크레딧)를 결정합니다.
이 소프트웨어를 자신의 위험으로 사용하는 것이 중요합니다 . 그들 중 일부는 FYI만을 포함합니다. 나는 그들을 사용하지 않는 것이 좋습니다.
| 스텔스 브라우저 | 인형극 | 셀렌 | 회피 | SDK/툴링 | 기원 |
|---|---|---|---|---|---|
| Gologin | ✔️ | ✔️ | ? | ? | ?? + ??? |
| incogniton | ✔️ | ✔️ | ? | ✔️ | ?? ❓ |
| 클론 브라우저 | ✔️ | ✔️ | ? | ✔️ | ?? |
| 멀티 로그 | ✔️ | ✔️ | ? | ✔️ | ?? + ??? |
| 인디고 브라우저 | ✔️ | ✔️ | ? | ✔️ | ?? |
| 고스트 브라우저 | ? | ?? | |||
| 카멜레오 | ✔️ | ✔️ | ? | ✔️ | ?? |
| 앤트 브라우저 | ?? | ||||
| Chebrowser | ?/✔️ | ? | ?? |
전설: ? - 소음에 따른 회피. - 아니요. ✔️ - 허용 가능 (지원 라이브러리 포함). ? - 아주 좋아요.
이 저장소에 A는 감사 하겠습니다!
여기서 나는 주요 온라인 웹 사이트에서 사용하는 봇 탐지 시스템을 극복하는 데 사용되는 회피 기술의 다양한 측면을 연구합니다. 나는 권장 사항, 과학 논문에 대한 언급 등을 포함하여 기술 및 비 기술적 문제를 다룹니다.
아래에서 공유하고있는 기술적 결과는 주요 안티 보트 솔루션 공급 업체가 보호받는 웹 사이트에 대해 몇 개월 동안 웹 스크래핑 스크립트를 실행하는 관찰을 기반으로합니다.
나는이 섹션에 끊임없이 물건을 추가합니다. 시간이 지남에 따라 나는 그것을 더 구조적으로 보이고 느끼게하려고 노력할 것입니다.
✔️ WIN / FAIL /? 묶다 :
navigator 및 window 속성User-Agent )와 일치하는 데 사용됩니다. 이 문제에 대한 자세한 설명이 있습니다. 가장 신뢰할 수있는 회피는 호스트 OS를 전혀 스푸핑하지 않거나 OSFooler-NG를 사용하는 것으로 보입니다.window.outerdimensions 제공하지만 OuterDimensions Evasion은 헤드리스 모드에서 비 디퍼 OS에서 올바른 구성 없이는 작동하지 않습니다. viewport size >= screen resolution (호스트의 낮은 화면 해상도 표시)시 거의 항상 실패합니다.ServiceWorker / WebWorker 스레드 제한을 제한 / 범프 할 수 없습니다.navigator 및 window 속성 - 멀티 로그어 문서에 따라 사용자 정의 브라우저는 일반적으로 브라우저 공급 업체가 추가 한 최신 추가 사항보다 뒤떨어집니다. 이 경우 수정 된 크롬 M7X가 사용됩니다 (이 글을 쓸 때 거의 10 버전 뒤).puppeteer-extra-plugin-stealth Custom Chromium 빌드와는 달리 Google 크롬과 함께 제공된 기본 플러그인 및 확장에 대한 재정의를 제공합니다.TBD (이러한 서비스에 활성 구독이 있고 계정 공유가 마음에 들지 않는 경우 이메일 ❤️)
이 웹 사이트는 웹 스크래핑 소프트웨어에 대한 지문 기술을 테스트하는 데 유용 할 수 있습니다.
| 테스트 페이지 | 메모 |
|---|---|
| https://bot.incolumitas.com/ | 매우 유용하고 유용한 테스트 모음 |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | 스테로이드에 대한 캔버스 지문 |
| https://pixelscan.net/ | 새로운 업데이트 후 Chrome에 "일관성이 없음"을 표시하기 때문에 100% 실질적이지만 저자가 매번 새로운 흥미로운 탐지 기능을 추가하므로 확인할 가치가 있습니다. |
| https://browserleaks.com/ | 소개가 필요하지 않습니다 |
| https://f.vision/ | 일부의 양질의 테스트 페이지 ?? 얘들아 |
| https://www.ipqualityscore.com/ip-reputation-check | 무료 평판이있는 상업 서비스 인기있는 블랙리스트에 대한 확인 |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Captcha 해결 비용을 최적화하는 방법에 대한 흥미로운 메모뿐만 아니라 Recaptcha 점수 |
| https://ja3er.com/ | SSL/TLS 지문 |
| https://fingerprintjs.com/demo/ | 기본 테스트에 적합 - 믿고 주장하는 사람들로부터 "99.5%"의 독특한 지문을 만들 수 있습니다. |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Recaptcha 점수를 확인하십시오 |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | 정말로 소름 끼치며, 가장 강합니다 |
웹 사이트에 방지 소프트웨어를 소개하려는 (및/또는)를 평가하는 사람들에게 일반적인 발언을해야합니다. 안티 버전 소프트웨어는 말도 안됩니다. 뱀 오일은 많은 돈을 위해 기술적 지식이없는 사람들에게 판매되었습니다.
봇 트래픽 차단은 귀하 (또는 기술 제공 업체)가 실제 사용자와 봇을 구별 할 수 있다는 전제를 기반으로합니다. 이를 위해 다양한 개인 정보 보호 기술이 적용됩니다. 현재까지 그들 중 어느 것도 특수 웹 스크래핑 도구에 대해 성공한 것으로 판명되지 않았습니다. 안티 버전 소프트웨어는 저렴한 봇 트래픽을 줄이는 것입니다. 그것은 긁는 과정을 더 비싸고 복잡하게 만들지 만 완전히 불가능하게 만드는 것은 아닙니다 .
안티 버전 소프트웨어 공급 업체는이 두 범주 중 하나에 속하는 탐지 기술을 사용합니다.
특수 웹 스크래핑 소프트웨어는 사용되지 않습니다. 공급 업체는 스크레이퍼에 의해 공개적으로 공개 된 정보, 즉 User-Agent 헤더, 연결 매개 변수 등에 의해 공개적으로 공개 된 정보를 기반으로 잘못된 트래픽을 감지 할 수 있습니다.
결과적으로 특정 웹 사이트를 긁어 내기위한 대상이 아닌 봇 만 차단됩니다 . 이로 인해 대부분의 관리자가 행복해질 것입니다. 왜냐하면 트래픽 의 전반적인 수가 줄어들고 웹 사이트에 더 이상 BOT 트래픽이없는 것처럼 보일 수 있습니다. 잘못된.
보다 고급 웹 스크레이퍼는 주거용 프록시를 사용하고 복잡한 회피 기술을 구현하여 웹 스크레이퍼가 실제 사용자라고 생각하기 위해 안티 버전 소프트웨어를 속이십시오. 웹 브라우저의 기술적 제한으로 인해이를 해결하기위한 탐지 메커니즘이 없습니다.
이 경우 대부분의 경우 공급 업체는 봇 트래픽 및 동작에서 패턴을 찾아서 불량 트래픽을 클러스터링 할 수 있습니다. 브라우저 지문이 시작되는 곳입니다. 여기서 트래픽을 금지하는 문제는 봇이 실제 사용자를 성공적으로 모방 할 때 위험한 작업으로 판명 될 수 있다는 것입니다. 봇을 차단함으로써 웹 사이트가 실제 방문자에게는 사용할 수 없을 가능성이 있습니다.
이것이 Google "Captcha Resolve API"로 이동하는 방법이라고 생각되면.
특정 웹 사이트를 폐기하는 데 문제가있는 경우 [email protected] 으로 짧은 이메일을 작성하십시오. Skype를 통해 빠른 tête-à-tête 상담을하자?.
내가 감사 할 것이라고 언급 했습니까? :-)
➡️ Ethereum 주소 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6