จากหลักการรวบรวมที่ฉันกล่าวถึงก่อนหน้านี้คุณจะเห็นว่าโปรแกรมการรวบรวมส่วนใหญ่ขึ้นอยู่กับกฎการวิเคราะห์สำหรับการรวบรวมเช่นการวิเคราะห์กฎชื่อไฟล์เพจและการวิเคราะห์กฎรหัสหน้า
1. การป้องกันการรวบรวมชื่อไฟล์เพจ
นักสะสมส่วนใหญ่พึ่งพาการวิเคราะห์กฎชื่อไฟล์เพจเพื่อดำเนินการชุดแบตช์และหลายหน้า หากคนอื่นไม่สามารถหากฎชื่อไฟล์สำหรับไฟล์เพจของคุณได้แล้วคนอื่น ๆ ก็จะไม่สามารถรวบรวมเว็บไซต์ของคุณหลายหน้าในแบทช์ได้
วิธีการดำเนินการ:
ฉันคิดว่าการเข้ารหัสชื่อไฟล์เพจ Paging ด้วย MD5 เป็นวิธีที่ดีกว่า เมื่อพูดถึงสิ่งนี้บางคนจะบอกว่าถ้าคุณเข้ารหัสชื่อไฟล์เพจเพงด้วย MD5 คนอื่น ๆ ก็สามารถจำลองกฎการเข้ารหัสของคุณเพื่อรับชื่อไฟล์เพจของคุณตามกฎนี้
สิ่งที่ฉันต้องการชี้ให้เห็นคือเมื่อเราเข้ารหัสชื่อไฟล์เพจไม่เพียงแค่เข้ารหัสชิ้นส่วนที่เปลี่ยนชื่อไฟล์
ถ้าฉันแสดงหมายเลขหน้าของหน้าเราก็ไม่ควรเข้ารหัสเช่นนี้: page_name = md5 (i, 16) & ". htm"
เป็นการดีที่สุดที่จะติดตามอักขระหนึ่งตัวขึ้นไปในหมายเลขหน้าที่จะเข้ารหัสเช่น: page_name = md5 (i & "ตัวอักษรหนึ่งหรือหลายตัว", 16) & ". htm"
เนื่องจาก MD5 ไม่สามารถถอดรหัสได้หน้าตัวอักษรที่คนอื่นเห็นเป็นผลมาจากการเข้ารหัส MD5 ดังนั้น adder จึงไม่สามารถรู้ได้ว่าตัวอักษรที่คุณติดตามหลังจากฉันเว้นแต่เขาจะใช้ความรุนแรง **** MD5 แต่มันไม่สมจริง
2. การป้องกันการรวบรวมกฎรหัสหน้า
หากหน้าเนื้อหาของเราไม่มีกฎรหัสแล้วคนอื่นไม่สามารถแยกชิ้นส่วนของเนื้อหาที่ต้องการจากรหัสของคุณได้ ดังนั้นขั้นตอนที่เราจำเป็นต้องป้องกันการรวบรวมคือการทำให้รหัสปราศจากกฎ
วิธีการดำเนินการ:
สุ่มเครื่องหมายที่อีกฝ่ายจำเป็นต้องสกัด
1. ปรับแต่งเทมเพลตเว็บหลายรายการ แท็ก HTML ที่สำคัญในแต่ละเทมเพลตเว็บนั้นแตกต่างกัน เมื่อนำเสนอเนื้อหาหน้าเว็บให้เลือกเทมเพลตเว็บแบบสุ่ม บางหน้าเป็นเค้าโครงด้วย CSS+DIV และบางหน้าเป็นรูปแบบด้วยตาราง วิธีนี้ค่อนข้างลำบาก สำหรับหน้าเนื้อหาคุณต้องสร้างหน้าเทมเพลตอีกหลายหน้า อย่างไรก็ตามการต่อต้านการสะสมเป็นสิ่งที่น่าเบื่อมาก การสร้างเทมเพลตมากขึ้นสามารถมีบทบาทในการป้องกันการสะสมซึ่งคุ้มค่าสำหรับคนจำนวนมาก
2. หากวิธีการข้างต้นลำบากเกินไปให้สุ่มแท็ก HTML ที่สำคัญในหน้าเว็บ
ยิ่งคุณทำเทมเพลตเว็บมากเท่าใดก็ยิ่งโค้ด HTML สุ่มมากขึ้นเท่านั้น ยิ่งมีปัญหามากขึ้นเมื่ออีกฝ่ายวิเคราะห์รหัสเนื้อหา เมื่อบุคคลอื่นเขียนกลยุทธ์การรวบรวมสำหรับเว็บไซต์ของคุณมันจะยากขึ้น ในเวลานี้คนส่วนใหญ่จะล่าถอยเพราะบุคคลนี้ขี้เกียจและรวบรวมข้อมูลจากเว็บไซต์ของคนอื่น ~~~ มาพูดถึงเรื่องนี้อีกครั้ง ในปัจจุบันคนส่วนใหญ่ใช้โปรแกรมการรวบรวมที่พัฒนาโดยผู้อื่นเพื่อรวบรวมข้อมูล ท้ายที่สุดมีคนไม่กี่คนที่พัฒนาโปรแกรมการรวบรวมเพื่อรวบรวมข้อมูลด้วยตัวเอง
มีแนวคิดง่ายๆสำหรับคุณ:
1. ใช้สคริปต์ไคลเอ็นต์เพื่อแสดงเนื้อหาที่มีความสำคัญต่อตัวรวบรวมข้อมูล แต่ไม่ใช่เครื่องมือค้นหา
2. การหารข้อมูลหนึ่งหน้าเป็นหน้า n เพื่อแสดงซึ่งเป็นวิธีเพิ่มความยากลำบากในการรวบรวม