Dari prinsip pengumpulan yang saya sebutkan sebelumnya, Anda dapat melihat bahwa sebagian besar program pengumpulan mengandalkan aturan analisis untuk pengumpulan, seperti menganalisis aturan nama file paging dan menganalisis aturan kode halaman.
1. Pencegahan pengumpulan nama file paging
Sebagian besar kolektor mengandalkan menganalisis aturan nama file paging untuk melakukan koleksi batch dan multi-halaman. Jika orang lain tidak dapat menemukan aturan nama file untuk file paging Anda, maka orang lain tidak akan dapat mengumpulkan beberapa halaman situs web Anda dalam batch.
Metode Implementasi:
Saya pikir mengenkripsi nama file paging dengan MD5 adalah cara yang lebih baik. Berbicara tentang hal ini, beberapa orang akan mengatakan bahwa jika Anda mengenkripsi nama file paging dengan MD5, yang lain juga dapat mensimulasikan aturan enkripsi Anda untuk mendapatkan nama file paging Anda sesuai dengan aturan ini.
Yang ingin saya tunjukkan adalah ketika kami mengenkripsi nama file paging, jangan hanya mengenkripsi bagian yang mengubah nama file
Jika saya mewakili nomor halaman halaman, maka kita tidak boleh mengenkripsi seperti ini: page_name = md5 (i, 16) & ". Htm"
Yang terbaik adalah menindaklanjuti satu atau lebih karakter pada nomor halaman yang akan dienkripsi, seperti: page_name = md5 (i & "salah satu atau beberapa huruf", 16) & ". Htm"
Karena MD5 tidak dapat didekripsi, surat -surat halaman yang dilihat orang lain adalah hasil dari enkripsi MD5, sehingga adder tidak dapat mengetahui huruf apa yang Anda ikuti setelah saya, kecuali dia menggunakan kekerasan **** MD5, tetapi itu tidak realistis.
2. Pencegahan pengumpulan aturan kode halaman
Jika halaman konten kami tidak memiliki aturan kode, maka orang lain tidak dapat mengekstrak bagian konten yang mereka butuhkan dari kode Anda. Jadi langkah yang kita butuhkan untuk mencegah pengumpulan adalah membuat kode bebas dari aturan.
Metode Implementasi:
Mengacak penanda yang perlu diekstraksi oleh pihak lain
1. Kustomisasi beberapa templat web. Tag HTML penting di setiap templat web berbeda. Saat menyajikan konten halaman, pilih secara acak template web. Beberapa halaman adalah tata letak dengan CSS+Div, dan beberapa halaman adalah tata letak dengan tabel. Metode ini agak merepotkan. Untuk halaman konten, Anda perlu membuat beberapa halaman templat lagi. Namun, anti-pengumpulan adalah hal yang sangat membosankan. Membuat lebih banyak template dapat berperan dalam mencegah pengumpulan, yang sangat berharga bagi banyak orang.
2. Jika metode di atas terlalu merepotkan, acak tag HTML penting di halaman web.
Semakin banyak templat web yang Anda buat, semakin banyak kode HTML acak. Semakin banyak masalah ketika pihak lain menganalisis kode konten. Ketika pihak lain menulis strategi pengumpulan untuk situs web Anda, itu akan lebih sulit. Pada saat ini, kebanyakan orang akan mundur karena orang ini malas dan mengumpulkan data dari situs web orang lain ~~~ mari kita bicarakan lagi. Saat ini, kebanyakan orang menggunakan program pengumpulan yang dikembangkan oleh orang lain untuk mengumpulkan data. Lagi pula, ada beberapa orang yang mengembangkan program pengumpulan untuk mengumpulkan data sendiri.
Ada beberapa ide sederhana untuk Anda:
1. Gunakan skrip klien untuk menampilkan konten yang penting bagi pengumpul data tetapi tidak untuk mesin pencari.
2. Membagi satu halaman data menjadi n halaman juga merupakan cara untuk meningkatkan kesulitan pengumpulan.