Saat menerapkan banyak metode anti-koleksi, Anda perlu mempertimbangkan apakah metode tersebut akan memengaruhi perayapan situs web oleh mesin telusur, jadi pertama-tama mari kita analisis perbedaan antara kolektor umum dan koleksi perayap mesin telusur.
Poin serupa:
a. Keduanya perlu menangkap kode sumber halaman web secara langsung agar dapat bekerja secara efektif.
b. Keduanya akan merayapi sejumlah besar konten situs web yang dikunjungi beberapa kali per satuan waktu;
c.Dari perspektif makro, kedua IP akan berubah;
d.Keduanya terlalu tidak sabar untuk memecahkan beberapa enkripsi (verifikasi) halaman web Anda. Misalnya, konten web dienkripsi melalui file js. Anda harus masuk untuk mengakses konten.
Perbedaan:
Perayap mesin pencari pertama-tama mengabaikan seluruh skrip dan gaya kode sumber halaman web serta kode tag html, dan kemudian melakukan serangkaian pemrosesan kompleks pada bagian teks yang tersisa seperti segmentasi kata, analisis tata bahasa dan sintaksis. Kolektor umumnya menangkap data yang diperlukan melalui karakteristik tag HTML. Saat membuat aturan pengumpulan, perlu untuk mengisi tanda awal dan tanda akhir dari konten target, untuk menemukan konten yang diperlukan atau menggunakan aturan reguler tertentu; halaman web tertentu. Ekspresi untuk menyaring konten yang diperlukan. Baik Anda menggunakan tag awal dan akhir atau ekspresi reguler, tag html (analisis struktur halaman web) akan terlibat.
Kemudian kami akan mengusulkan beberapa metode anti-pengumpulan.
1. Batasi jumlah kunjungan per satuan waktu suatu alamat IP
Analisis: Tidak ada orang biasa yang dapat mengunjungi situs web yang sama 5 kali dalam satu detik, kecuali situs tersebut diakses oleh suatu program, dan mereka yang memiliki preferensi ini akan ditinggalkan dengan perayap mesin pencari dan pencakar yang mengganggu.
Kekurangan: Satu ukuran untuk semua, yang juga akan mencegah mesin pencari memasukkan situs web.
Website yang berlaku: Website yang tidak terlalu bergantung pada mesin pencari
Apa yang akan dilakukan kolektor: Mengurangi jumlah akses per satuan waktu dan mengurangi efisiensi pengumpulan
2. Blokir IP
Analisis: Gunakan penghitung latar belakang untuk mencatat alamat IP pengunjung dan frekuensi akses, menganalisis catatan kunjungan secara manual, dan memblokir alamat IP yang mencurigakan.
Kekurangan: Sepertinya tidak ada kekurangannya, tapi webmasternya agak sibuk.
Situs web yang berlaku: Semua situs web, dan webmaster dapat mengetahui mana yang merupakan robot Google atau Baidu
Apa yang akan dilakukan kolektor: Lawan perang gerilya! Gunakan proxy IP untuk mengumpulkan data setiap saat, tetapi ini akan mengurangi efisiensi kolektor dan kecepatan jaringan (gunakan proxy).
3. Gunakan js untuk mengenkripsi konten web
Catatan: Saya belum pernah menemukan metode ini, saya hanya melihatnya dari tempat lain.
Analisis: Tidak perlu menganalisa, crawler dan kolektor mesin pencari dapat saling membunuh
Situs web yang berlaku: Situs web yang sangat membenci mesin pencari dan kolektor
Kolektor akan melakukan ini: Jika Anda begitu hebat dan mempertaruhkan segalanya, dia tidak akan datang menjemput Anda.
4. Hak cipta situs web atau teks sampah acak disembunyikan di halaman web. Gaya teks ini ditulis dalam file css.
Analisis: Meskipun tidak dapat mencegah pengumpulan, ini akan membuat konten yang dikumpulkan penuh dengan pernyataan hak cipta situs web Anda atau beberapa teks sampah, karena umumnya kolektor tidak akan mengumpulkan file CSS Anda pada saat yang sama, dan teks tersebut akan ditampilkan tanpa gaya.
Situs web yang berlaku: semua situs web
Apa yang akan dilakukan kolektor: Untuk teks berhak cipta, mudah untuk menangani dan menggantinya. Tidak ada yang dapat Anda lakukan terhadap teks spam acak, cukup rajin saja.
5. Pengguna harus login untuk mengakses konten situs web
Analisis: Crawler mesin pencari tidak akan merancang prosedur login untuk setiap jenis situs web. Saya mendengar bahwa kolektor dapat mensimulasikan login pengguna dan perilaku pengiriman formulir untuk desain situs web tertentu.
Situs web yang berlaku: Situs web yang membenci mesin pencari dan ingin memblokir sebagian besar kolektor
Apa yang akan dilakukan kolektor: Membuat modul yang mensimulasikan login pengguna dan mengirimkan perilaku formulir
6. Gunakan bahasa scripting untuk melakukan paging (menyembunyikan paging)
Analisis: Sekali lagi, perayap mesin telusur tidak akan menganalisis penomoran halaman tersembunyi dari berbagai situs web, sehingga memengaruhi penyertaan mesin telusur. Namun, ketika kolektor menulis aturan pengumpulan, mereka perlu menganalisis kode halaman web target. Mereka yang mengetahui pengetahuan skrip akan mengetahui alamat tautan sebenarnya dari halaman tersebut.
Situs web yang berlaku: Situs web yang tidak terlalu bergantung pada mesin pencari. Selain itu, orang yang mengumpulkan Anda tidak memiliki pengetahuan skrip.
Apa yang akan dilakukan kolektor: Harus dikatakan apa yang akan dilakukan kolektor. Dia akan tetap menganalisis kode halaman web Anda, dan menganalisis skrip halaman Anda. Ini tidak memerlukan banyak waktu tambahan.