เมื่อใช้วิธีการต่อต้านการรวบรวมข้อมูลหลายวิธี คุณต้องพิจารณาว่าจะส่งผลต่อการรวบรวมข้อมูลเว็บไซต์ของเครื่องมือค้นหาหรือไม่ ดังนั้นก่อนอื่นเรามาวิเคราะห์ความแตกต่างระหว่างตัวรวบรวมทั่วไปและการรวบรวมตัวรวบรวมข้อมูลของเครื่องมือค้นหา
จุดที่คล้ายกัน:
ก. ทั้งสองจำเป็นต้องจับซอร์สโค้ดของหน้าเว็บโดยตรงเพื่อให้ทำงานได้อย่างมีประสิทธิภาพ
ข. ทั้งสองจะรวบรวมข้อมูลเนื้อหาเว็บไซต์ที่เยี่ยมชมจำนวนมากหลายครั้งต่อหน่วยเวลา
ค. จากมุมมองของมาโคร IP ทั้งสองจะเปลี่ยนไป
ง. ทั้งสองคนใจร้อนเกินกว่าจะถอดรหัส (การยืนยัน) หน้าเว็บบางส่วนของคุณ ตัวอย่างเช่น เนื้อหาเว็บถูกเข้ารหัสผ่านไฟล์ js คุณต้องเข้าสู่ระบบเพื่อเข้าถึงเนื้อหา
ความแตกต่าง:
โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาจะละเว้นสคริปต์และสไตล์ของซอร์สโค้ดของหน้าเว็บทั้งหมด รวมถึงโค้ดแท็ก html จากนั้นจึงดำเนินการชุดของการประมวลผลที่ซับซ้อนในส่วนข้อความที่เหลือ เช่น การแบ่งส่วนคำ การวิเคราะห์ทางไวยากรณ์และวากยสัมพันธ์ โดยทั่วไปตัวรวบรวมจะจับข้อมูลที่ต้องการผ่านลักษณะของแท็ก HTML เมื่อสร้างกฎการรวบรวม จำเป็นต้องกรอกเครื่องหมายเริ่มต้นและเครื่องหมายสิ้นสุดของเนื้อหาเป้าหมาย เพื่อค้นหาเนื้อหาที่ต้องการ หรือใช้กฎปกติเฉพาะสำหรับ หน้าเว็บเฉพาะเจาะจงเพื่อกรองเนื้อหาที่ต้องการ ไม่ว่าคุณจะใช้แท็กเริ่มต้นและแท็กสิ้นสุดหรือนิพจน์ทั่วไป แท็ก html (การวิเคราะห์โครงสร้างหน้าเว็บ) จะเกี่ยวข้อง
จากนั้นเราจะเสนอวิธีการต่อต้านการสะสมบางอย่าง
1. จำกัดจำนวนการเข้าชมต่อหน่วยเวลาของที่อยู่ IP
การวิเคราะห์: ไม่มีบุคคลธรรมดาคนใดสามารถเยี่ยมชมเว็บไซต์เดียวกันได้ 5 ครั้งในหนึ่งวินาที เว้นแต่ว่าจะมีการเข้าถึงโดยโปรแกรม และผู้ที่มีความต้องการเช่นนี้จะเหลือซอฟต์แวร์รวบรวมข้อมูลของเครื่องมือค้นหาและเครื่องขูดที่น่ารำคาญ
ข้อเสีย: ขนาดเดียวเหมาะกับทุกคน ซึ่งจะป้องกันไม่ให้เครื่องมือค้นหารวมเว็บไซต์ด้วย
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ที่ไม่พึ่งพาเครื่องมือค้นหามากนัก
สิ่งที่ผู้รวบรวมจะทำ: ลดจำนวนการเข้าถึงต่อหน่วยเวลาและลดประสิทธิภาพการรวบรวม
2. บล็อกไอพี
การวิเคราะห์: ใช้ตัวนับเบื้องหลังเพื่อบันทึกที่อยู่ IP ของผู้เยี่ยมชมและความถี่ในการเข้าถึง วิเคราะห์บันทึกการเยี่ยมชมด้วยตนเอง และบล็อกที่อยู่ IP ที่น่าสงสัย
ข้อเสีย: ดูเหมือนจะไม่มีข้อเสียแต่เว็บมาสเตอร์จะยุ่งนิดหน่อย
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ทั้งหมดและผู้ดูแลเว็บสามารถรู้ได้ว่าเว็บไซต์ใดเป็นหุ่นยนต์ของ Google หรือ Baidu
สิ่งที่นักสะสมจะทำ: ต่อสู้กับสงครามกองโจร! ใช้ IP proxy เพื่อรวบรวมข้อมูลทุกครั้ง แต่จะลดประสิทธิภาพของตัวรวบรวมและความเร็วเครือข่าย (ใช้ proxy)
3. ใช้ js เพื่อเข้ารหัสเนื้อหาเว็บ
หมายเหตุ: ฉันไม่เคยเจอวิธีนี้ ฉันเพิ่งเห็นมันจากที่อื่น
การวิเคราะห์: ไม่จำเป็นต้องวิเคราะห์ โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาและนักสะสมสามารถฆ่ากันเองได้
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ที่เกลียดเครื่องมือค้นหาและนักสะสมอย่างมาก
นักสะสมจะทำสิ่งนี้: หากคุณเก่งมากและเสี่ยงทุกอย่างเขาจะไม่มาเก็บคุณ
4. ลิขสิทธิ์ของเว็บไซต์หรือข้อความขยะแบบสุ่มถูกซ่อนอยู่ในหน้าเว็บ
การวิเคราะห์: แม้ว่าจะไม่สามารถป้องกันการรวบรวมข้อมูลได้ แต่จะทำให้เนื้อหาที่รวบรวมเต็มไปด้วยคำชี้แจงลิขสิทธิ์ของเว็บไซต์ของคุณหรือข้อความขยะ เนื่องจากโดยทั่วไปแล้วผู้รวบรวมจะไม่รวบรวมไฟล์ CSS ของคุณในเวลาเดียวกัน และข้อความเหล่านั้นจะแสดงโดยไม่มีสไตล์
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ทั้งหมด
สิ่งที่ผู้รวบรวมจะทำ: สำหรับข้อความที่มีลิขสิทธิ์ ง่ายต่อการจัดการและแทนที่ คุณไม่สามารถทำอะไรกับข้อความสแปมแบบสุ่มได้ เพียงแค่ขยันหมั่นเพียร
5. ผู้ใช้จะต้องเข้าสู่ระบบเพื่อเข้าถึงเนื้อหาเว็บไซต์
การวิเคราะห์: โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาจะไม่ออกแบบขั้นตอนการเข้าสู่ระบบสำหรับเว็บไซต์ทุกประเภท ฉันได้ยินมาว่าตัวรวบรวมสามารถจำลองการเข้าสู่ระบบของผู้ใช้และพฤติกรรมการส่งแบบฟอร์มสำหรับการออกแบบเว็บไซต์บางประเภทได้
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ที่เกลียดเครื่องมือค้นหาและต้องการบล็อกนักสะสมส่วนใหญ่
สิ่งที่ตัวรวบรวมจะทำ: สร้างโมดูลที่จำลองการเข้าสู่ระบบของผู้ใช้และส่งพฤติกรรมของแบบฟอร์ม
6. ใช้ภาษาสคริปต์ในการทำเพจ (ซ่อนเพจ)
การวิเคราะห์: ขอย้ำอีกครั้งว่าโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาจะไม่วิเคราะห์การแบ่งหน้าที่ซ่อนอยู่ของเว็บไซต์ต่างๆ ซึ่งส่งผลต่อการรวมของเครื่องมือค้นหา อย่างไรก็ตาม เมื่อนักสะสมเขียนกฎการรวบรวม พวกเขาจำเป็นต้องวิเคราะห์โค้ดของหน้าเว็บเป้าหมาย ผู้ที่รู้ความรู้ด้านสคริปต์จะรู้ที่อยู่ลิงก์ที่แท้จริงของเพจ
เว็บไซต์ที่เกี่ยวข้อง: เว็บไซต์ที่ไม่ต้องพึ่งเครื่องมือค้นหามากนัก นอกจากนี้ บุคคลที่รวบรวมคุณไม่มีความรู้ด้านสคริปต์
สิ่งที่นักสะสมจะทำ: ควรบอกว่านักสะสมจะทำอะไรต่อไป เขาจะวิเคราะห์โค้ดหน้าเว็บของคุณ และวิเคราะห์สคริปต์การเพจของคุณโดยใช้เวลาไม่นานนัก