การพัฒนาของที่เก็บนี้จะเป็นไปไม่ได้หากไม่ได้รับการสนับสนุนจากพันธมิตรและผู้สนับสนุนหลายราย หนึ่งในพันธมิตรเหล่านี้คือ Scrapingbee ซึ่งเป็นบริการขูดเว็บคลาวด์ที่มีคุณสมบัติการตรวจจับต่อต้านบอทในตัว
SCRAPINGBEE - ลงทะเบียนเพื่อรับการทดลองใช้ฟรีและรับ -10% ในใบแจ้งหนี้แรกที่มีรหัส "NIESPODD"
ไม่ว่าคุณจะเพิ่งเริ่มสร้างเครื่องขูดเว็บตั้งแต่เริ่มต้นและสงสัยว่าคุณทำอะไรผิดเพราะโซลูชันของคุณไม่ทำงานหรือคุณได้ทำงานกับซอฟต์แวร์รวบรวมข้อมูลมาระยะหนึ่งแล้วและติดอยู่บนหน้าเว็บที่ให้ข้อผิดพลาดกับคุณว่าคุณเป็นบอทคุณไม่สามารถอ่านต่อไปได้
โซลูชั่นต่อต้านบอทมีการพัฒนาในช่วงไม่กี่ปีที่ผ่านมา เว็บไซต์ที่มากขึ้นเรื่อย ๆ กำลังแนะนำมาตรการความปลอดภัย: จากเว็บไซต์ง่าย ๆ เช่นการกรองที่อยู่ IP ตามตำแหน่งทางภูมิศาสตร์ของพวกเขาไปจนถึงขั้นสูงตามการวิเคราะห์เชิงลึกของพารามิเตอร์เบราว์เซอร์และการวิเคราะห์พฤติกรรม ทั้งหมดนี้ทำให้การขูดเว็บเนื้อหายากขึ้นและมีค่าใช้จ่ายสูงกว่าเมื่อไม่กี่ปีที่ผ่านมา อย่างไรก็ตามมันยังคงเป็นไปได้ ที่นี่ฉันเน้นเคล็ดลับบางอย่างที่คุณอาจพบว่ามีประโยชน์
ด้านล่างคุณสามารถค้นหารายการบริการที่ฉันใช้เพื่อรับการป้องกันการต่อต้านบอทที่แตกต่างกัน ขึ้นอยู่กับกรณีการใช้งานของคุณคุณอาจต้องการสิ่งต่อไปนี้:
| สถานการณ์/กรณีการใช้งาน | สารละลาย | ตัวอย่าง |
|---|---|---|
| ช่วงเวลาสั้น ๆ โดยไม่ต้องรับรองความถูกต้อง | พูลของที่อยู่ IP แบบหมุน | สิ่งนี้มีประโยชน์เมื่อคุณขูดเว็บไซต์อย่าง Amazon, Walmart หรือ Public LinkedIn นั่นคือเว็บไซต์ใด ๆ ที่ไม่จำเป็นต้องลงชื่อเข้าใช้ คุณวางแผนที่จะสร้างช่วงเวลาสั้น ๆ จำนวนมากและสามารถถูกบล็อกได้ทุก ๆ ครั้ง |
| เว็บไซต์ที่ถูก จำกัด ทางภูมิศาสตร์ | พูลเฉพาะภูมิภาคของที่อยู่ IP | สิ่งนี้มีประโยชน์เมื่อเว็บไซต์ใช้ไฟร์วอลล์คล้ายกับเว็บไซต์จาก CloudFlare เพื่อบล็อกภูมิศาสตร์ทั้งหมดจากการเข้าถึง |
| เซสชันที่มีอายุยืนยาวหลังจากลงชื่อเข้าใช้ | กลุ่มที่อยู่ IP ที่ทำซ้ำได้และชุดลายนิ้วมือเบราว์เซอร์ที่เสถียร | สถานการณ์ที่พบบ่อยที่สุดที่นี่คือโซเชียลมีเดียอัตโนมัติเช่นคุณสร้างเครื่องมือในการทำให้บัญชีโซเชียลมีเดียอัตโนมัติเพื่อจัดการโฆษณาได้อย่างมีประสิทธิภาพมากขึ้น |
| การตรวจจับที่ใช้จาวาสคริปต์ | การใช้ห้องสมุดการหลีกเลี่ยงที่เป็นที่นิยมคล้ายกับ Puppeteer-Extra-Plugin-Stealth | มีเว็บไซต์จำนวนมากที่ใช้ลายนิ้วมือที่สามารถข้ามได้อย่างง่ายดายเมื่อคุณใช้ปลั๊กอินโอเพนซอร์ซเช่นปลั๊กอิน Stealth Puppeteer ดังกล่าวข้างต้นเพื่อทำงานกับซอฟต์แวร์ที่มีอยู่ของคุณ |
| การตรวจจับด้วยเทคนิคการพิมพ์ลายนิ้วมือเบราว์เซอร์ | ลายนิ้วมือเบราว์เซอร์ที่ดูเป็นธรรมชาติ นั่นคือการครอบคลุมพื้นผิวทั้งหมดที่ได้รับการตรวจสอบโดยโซลูชัน JavaScript ที่ติดตั้งบนเว็บไซต์เป้าหมาย | นี่เป็นหนึ่งในกรณีที่ทันสมัยที่สุด ตัวอย่างกระแสหลักคือตัวประมวลผลบัตรเครดิตเช่น Adyen หรือ Stripe ลายนิ้วมือเบราว์เซอร์ที่ซับซ้อนมากกำลังถูกสร้างขึ้นเพื่อตรวจจับการฉ้อโกงเครดิตหรือแจ้งการอนุญาตเพิ่มเติมจากผู้ใช้ |
| ชุดเทคนิคการตรวจจับที่ไม่ซ้ำกัน | ซอฟต์แวร์บอทพิเศษที่กำหนดเป้าหมายพื้นผิวการตรวจจับที่ไม่ซ้ำกันของเว็บไซต์เป้าหมาย | ตัวอย่างที่ดีคือเว็บไซต์ตลาดรองเท้าผ้าใบและร้านค้าอีคอมเมิร์ซรายงานว่าถูกโจมตีอย่างหนักจากซอฟต์แวร์บอทที่ทำเอง |
| เทคนิคการตรวจจับที่ทำเองแบบง่าย ๆ | ก่อนที่จะดำน้ำในสิ่งใด ๆ ข้างต้นหากคุณกำลังกำหนดเป้าหมายเว็บไซต์ขนาดเล็กเป็นไปได้มากที่สิ่งที่คุณต้องการคือสคริปต์สคริปต์ที่มีการปรับแต่งพร็อกซีศูนย์ข้อมูลราคาถูกและคุณก็พร้อมที่จะไป | - |
เมื่อคุณตัดสินใจว่าจะมีการหลีกเลี่ยงประเภทใดในโครงการของคุณคุณสามารถใช้รายการด้านล่างเพื่อเลือกผู้ให้บริการที่ดีที่สุดสำหรับโครงการของคุณ:
| พิมพ์ | บริการ | บันทึก |
|---|---|---|
| พร็อกซี | พร็อกซีสังคม ![]() | แนะนำเป็นอย่างยิ่ง? ✔ข้อดี : พูล IP นั้นดีอย่างต่อเนื่องตรงข้ามกับ "ฉลามใหญ่" ที่มีอยู่ของอุตสาหกรรมพร็อกซีที่เรียกเก็บเงินต่อ GB ที่นี่คุณจะได้รับการจราจรไม่ จำกัด ภายในจุดสิ้นสุดการหมุน รูปแบบธุรกิจที่โปร่งใส จุดด้อย: ความคุ้มครองทางภูมิศาสตร์ถูก จำกัด เฉพาะประเทศที่ระบุไว้ในเว็บไซต์ IP ไม่ได้หมุนทันที แต่คุณต้องรอ 10-15 วินาที |
BrightData (เดิมคือเครือข่าย Luminati)![]() | หนึ่งในผู้ให้บริการที่ได้รับความนิยมมากที่สุด แต่อาจเป็นผู้ให้บริการพร็อกซีที่แพงที่สุด พูล IP ส่วนใหญ่มาจากผู้ใช้ HOLAVPN และการสร้างรายได้จากแอพ SDK | |
oxylabs![]() | คู่แข่งของ BrightData ด้วยผลิตภัณฑ์ขูดแบบไม่มีรหัส/ต่ำมากขึ้น | |
| ขูดเป็นบริการ | การขูด![]() | แนะนำเป็นอย่างยิ่ง? หนึ่งในการขูดลวก ๆ ลวก ๆ เป็นบริการ บางครั้งมันอาจจะถูกกว่าการสร้างโซลูชันการขูดโดยเฉพาะ - พวกเขาไม่คิดค่าใช้จ่ายสำหรับปริมาณการใช้งานที่ใช้ |
apify.com![]() | Apify ได้พัฒนาไปสู่แพลตฟอร์ม SaaS และระบบอัตโนมัติที่สมบูรณ์พร้อมเครื่องมือสำเร็จรูปพร็อกซีแบบบูรณาการและโซลูชั่นที่กำหนดเองสำหรับการขูดในทุกระดับ นักพัฒนายังสามารถสร้างเครื่องขูดบนแพลตฟอร์มและเช่าให้กับผู้ใช้รายอื่น | |
| de-captcha เป็นบริการ | Anti Captcha: Captcha Solving Service บายพาส Recaptcha, Funcaptcha (... )![]() | อธิบายตนเอง Bitcoin ยอมรับ❤ |
นี่คือรายชื่อ บริษัท ที่ไม่ครอบคลุมที่ให้บริการโซลูชั่นต่อต้านบอทที่ทันสมัยที่สุดสำหรับธุรกิจตั้งแต่ไซต์อีคอมเมิร์ซขนาดเล็กไปจนถึง บริษัท Fortune 500:

เข้าร่วมพิเศษชุมชน มีการเรียกใช้ Botty McBotface ผู้ทดสอบอัตโนมัติที่ใช้เทคนิคที่ซับซ้อนหลายอย่างเพื่อกำหนดว่าการป้องกันที่แน่นอนของเว็บไซต์ที่ทดสอบนั้นใช้ (เครดิตกับ Berstend และอื่น ๆ จาก #insiders)
สำคัญที่ คุณใช้ซอฟต์แวร์นี้ด้วยความเสี่ยงของคุณเอง บางคนมีมัลแวร์เพียงแค่ FYI ฉันไม่แนะนำให้ใช้พวกเขา
| เบราว์เซอร์ | ผู้เชิดหุ่น | ซีลีเนียม | การหลีกเลี่ยง | sdk/tooling | ต้นทาง |
|---|---|---|---|---|---|
| Gologin | - | - | - - | ||
| ไม่ระบุตัวตน | - | - | |||
| ผู้เล่น | - | - | |||
| มัลติโอลิก | - | - - | |||
| เบราว์เซอร์อินดิโก้ | - | - | |||
| Ghostbrowser | - | - | |||
| คาเมเลโอ | - | - | |||
| แอนโบรว์เซอร์ | - | ||||
| เชือก | ?/ | - | - |
ตำนาน: ? - การหลีกเลี่ยงตามเสียงรบกวน - ไม่✔ - ยอมรับได้ (พร้อมห้องสมุดสนับสนุนหรือไม่) - - ดีมาก.
A เกี่ยวกับ repo นี้จะได้ รับการชื่นชม !
ที่นี่ฉันศึกษาแง่มุมต่าง ๆ ของเทคนิคการหลีกเลี่ยงที่ใช้ในการหลีกเลี่ยงระบบตรวจจับบอทที่ใช้โดยเว็บไซต์ออนไลน์ที่สำคัญ ฉันครอบคลุมทั้งเรื่องทางเทคนิคและที่ไม่ใช่ด้านเทคนิครวมถึงคำแนะนำการอ้างอิงถึงเอกสารทางวิทยาศาสตร์และอื่น ๆ
การค้นพบทางเทคนิคที่ฉันแชร์ด้านล่างขึ้นอยู่กับการสังเกตการใช้สคริปต์การขูดเว็บเป็นเวลาสองสามเดือนกับเว็บไซต์ที่ได้รับการปกป้องโดยผู้ขายโซลูชั่นต่อต้านบอทรายใหญ่
ฉันเพิ่มสิ่งของในส่วนนี้อย่างต่อเนื่อง เมื่อเวลาผ่านไปฉันจะพยายามทำให้มันดูและมีโครงสร้างมากขึ้น
✔ win / fail /? ผูก :
navigator ทั่วไปและคุณสมบัติ windowUser-Agent ) มีคำอธิบายโดยละเอียดเกี่ยวกับปัญหา การหลีกเลี่ยงที่น่าเชื่อถือที่สุดดูเหมือนว่าจะไม่ปลอมแปลงระบบปฏิบัติการโฮสต์เลยหรือใช้ osfooler-NGwindow.outerdimensions Evasion แต่มันจะไม่ทำงานหากไม่มีการกำหนดค่าที่ถูกต้องบนระบบปฏิบัติการที่ไม่ได้รับการป้องกันในโหมด Headless; เกือบจะล้มเหลวเกือบทุกครั้งเมื่อ viewport size >= screen resolution (จอแสดงผลความละเอียดหน้าจอต่ำบนโฮสต์)ServiceWorker / WebWorker ผ่าน API Puppeteer APIs ที่มีอยู่navigator และ window - ตามเอกสาร Multilogin ที่กำหนดเองเบราว์เซอร์ที่กำหนดเองจะสร้างความล่าช้าหลังการเพิ่มเติมล่าสุดที่เพิ่มโดยผู้ขายเบราว์เซอร์ ในกรณีนี้มีการใช้โครเมียม M7X ที่ได้รับการแก้ไข (เกือบ 10 เวอร์ชันเมื่อเขียนสิ่งนี้)puppeteer-extra-plugin-stealth Builds เช่น ML และ Kameleo ให้การแทนที่ส่วนใหญ่สำหรับปลั๊กอินและส่วนขยายที่ส่งมาพร้อมกับ Google ChromeTBD (หากคุณมีการสมัครสมาชิกที่ใช้งานอยู่ในบริการเหล่านี้และไม่รังเกียจที่จะแบ่งปันบัญชีให้ฉันส่งอีเมลถึงฉัน❤)
เว็บไซต์เหล่านี้อาจเป็นประโยชน์ในการทดสอบเทคนิคการพิมพ์ลายนิ้วมือกับซอฟต์แวร์ขูดเว็บ
| หน้าทดสอบ | หมายเหตุ |
|---|---|
| https://bot.incolumitas.com/ | คอลเลกชันการทดสอบที่มีประโยชน์และมีประโยชน์มาก |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | ผ้าใบลายนิ้วมือบนสเตียรอยด์ |
| https://pixelscan.net/ | ไม่ใช่จริง 100% ซึ่งมักจะแสดง "ไม่สอดคล้องกัน" ต่อ Chrome หลังจากการอัปเดตใหม่ แต่คุ้มค่าที่จะตรวจสอบเนื่องจากผู้เขียนเพิ่มคุณสมบัติการตรวจจับที่น่าสนใจใหม่ ๆ ทุกครั้ง |
| https://browserleaks.com/ | ไม่จำเป็นต้องแนะนำ |
| https://f.vision/ | หน้าทดสอบคุณภาพดีจากบางคน ?? พวก |
| https://www.ipqualityscore.com/ip-reputation-check | บริการเชิงพาณิชย์พร้อมการตรวจสอบชื่อเสียงฟรีกับบัญชีดำยอดนิยม |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | คะแนน Recaptcha รวมถึงบันทึกที่น่าสนใจเกี่ยวกับวิธีการเพิ่มค่าใช้จ่ายในการแก้แคปชา |
| https://ja3er.com/ | ลายนิ้วมือ SSL/TLS |
| https://fingerprintjs.com/demo/ | ดีสำหรับการทดสอบขั้นพื้นฐาน - จากผู้ที่เชื่อและอ้างสิทธิ์สามารถสร้างลายนิ้วมือที่ไม่เหมือนใคร "99.5%" ของเวลา |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | ตรวจสอบคะแนน Recaptcha ของคุณ |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://hey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | น่าขนลุกจริงๆ |
ฉันจำเป็นต้องพูดคุยทั่วไปกับผู้ที่กำลังประเมิน (และ/หรือ) วางแผนที่จะแนะนำซอฟต์แวร์ต่อต้านบอทบนเว็บไซต์ของพวกเขา ซอฟต์แวร์ต่อต้านบอทเป็นเรื่องไร้สาระ น้ำมันงูขายให้กับผู้คนที่ไม่มีความรู้ด้านเทคนิคสำหรับเหรียญหนัก
การปิดกั้นทราฟฟิกบอทขึ้นอยู่กับหลักฐานที่คุณ (หรือผู้ให้บริการเทคโนโลยีของคุณ) สามารถ แยกแยะบอทจากผู้ใช้จริง เพื่อให้สิ่งนี้เกิดขึ้นได้ว่ามีการใช้เทคนิคการรุกรานความเป็นส่วนตัวที่หลากหลาย จนถึงปัจจุบันไม่มีใครได้รับการพิสูจน์แล้วว่าประสบความสำเร็จกับเครื่องมือการขูดเว็บพิเศษ ซอฟต์แวร์ต่อต้านบอทคือทั้งหมดที่เกี่ยวกับการลดทราฟฟิกบอทราคาถูก มันทำให้กระบวนการขูดราคาแพงและซับซ้อนขึ้น แต่ ไม่ได้ทำให้เป็นไปไม่ได้เลย
ผู้ขายซอฟต์แวร์ต่อต้านบอทใช้เทคนิคการตรวจจับที่อยู่ในหนึ่งในสองหมวดหมู่นี้:
ไม่มีการใช้ซอฟต์แวร์ขูดเว็บพิเศษ ผู้ขายสามารถตรวจจับการรับส่งข้อมูลที่ไม่ดีตามข้อมูลที่เปิดเผยอย่างเปิดเผยโดยส่วนหัว User-Agent พารามิเตอร์การเชื่อมต่อ ฯลฯ
เป็นผล ให้บอทเฉพาะที่ไม่ได้กำหนดเป้าหมายไปที่เว็บไซต์ที่เฉพาะเจาะจงจะถูกบล็อก สิ่งนี้จะทำให้ผู้จัดการส่วนใหญ่มีความสุขเพราะจำนวน การเข้าชมที่ไม่ดี โดยรวมลดลงและอาจดูเหมือนว่าไม่มีการเข้าชมบอทบนเว็บไซต์อีกต่อไป ผิด.
เครื่องขูดเว็บขั้นสูงเพิ่มเติมใช้ประโยชน์จากพร็อกซีที่อยู่อาศัยและใช้เทคนิคการหลีกเลี่ยงที่ซับซ้อนเพื่อหลอกซอฟต์แวร์ต่อต้านบอทเพื่อคิดว่าเครื่องขูดเว็บเป็นผู้ใช้จริง ไม่มีกลไกการตรวจจับที่จะหลีกเลี่ยงสิ่งนี้เนื่องจากข้อ จำกัด ทางเทคนิคของเว็บเบราว์เซอร์
ในกรณีนี้ส่วนใหญ่ของผู้ขายจะสามารถ รวมกลุ่มการจราจรที่ไม่ดี โดยการค้นหารูปแบบในการจราจรและพฤติกรรมของบอท นี่คือที่ที่เบราว์เซอร์ลายนิ้วมือเข้ามาเล่น ปัญหาเกี่ยวกับการห้ามการรับส่งข้อมูลที่นี่คือมันอาจกลายเป็นการดำเนินการที่มีความเสี่ยงเมื่อบอทกำลังเลียนแบบผู้ใช้จริง มีโอกาสที่ การปิดกั้นบอทเว็บไซต์จะไม่สามารถใช้งานได้กับผู้เข้าชมจริง
หากคุณคิดว่านี่เป็นวิธีที่จะไป Google "Captcha Resolve API"
หากคุณมีปัญหาเกี่ยวกับการขูดเว็บไซต์เฉพาะให้เขียนอีเมลสั้น ๆ ที่ [email protected] มาขอคำปรึกษาอย่างรวดเร็วtête-à-têteผ่าน Skype?
ฉันเคยพูดถึง A จะได้รับการชื่นชมหรือไม่? -
➡ที่อยู่ Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6