Robots.txt adalah file teks biasa di mana administrator situs web dapat menyatakan bahwa bagian dari situs web yang tidak ingin diakses oleh robot, atau menentukan bahwa mesin pencari hanya mencakup konten yang ditentukan. Pengantar dasar robot.txt
Robots.txt adalah file teks biasa di mana administrator situs web dapat menyatakan bahwa bagian dari situs web yang tidak ingin diakses oleh robot, atau menentukan bahwa mesin pencari hanya mencakup konten yang ditentukan.
Ketika robot pencarian (beberapa yang disebut laba -laba pencarian) mengunjungi situs, pertama -tama akan memeriksa apakah robot.txt ada di direktori root situs. Jika ada, robot pencarian akan menentukan ruang lingkup akses sesuai dengan konten dalam file; Jika file tidak ada, robot pencarian akan merangkak di sepanjang tautan.
Selain itu, robots.txt harus ditempatkan di direktori root situs, dan nama file harus semuanya huruf kecil.
robots.txt menulis tata bahasaPertama, mari kita lihat contoh robots.txt: http://www.csswebs.org/robots.txt
Dengan mengunjungi alamat spesifik di atas, kita dapat melihat konten spesifik robot.txt sebagai berikut:
# Robots.txt file dari http://www.csswebs.org
# Semua robot akan melaba domain
Pengguna-agen: *
Melarang:
Teks di atas berarti bahwa semua robot pencarian diizinkan untuk mengakses semua file di bawah situs www.csswebs.org.
Analisis Sintaks Spesifik: Teks Setelah # adalah informasi penjelasan; Pengguna-agen: Nama robot pencarian diikuti, dan jika itu *, umumnya mengacu pada semua robot pencarian; Larang: Direktori file di belakang tidak diperbolehkan diakses.
Di bawah ini, saya akan mencantumkan beberapa penggunaan robots.txt:
Izinkan semua akses robotPengguna-agen: *
Melarang:
Atau Anda dapat membuat file file/robots.txt kosong
Semua mesin pencari dilarang mengakses bagian mana pun dari situs webPengguna-agen: *
Larang: /
Semua mesin pencari dilarang mengakses beberapa bagian situs web (direktori 01, 02, 03 dalam contoh berikut)Pengguna-agen: *
Larang: /01 /
Larang: /02 /
Larang: /03 /
Nonaktifkan akses ke mesin pencari (badbot dalam contoh berikut)Pengguna-agen: Badbot
Larang: /
Hanya akses ke mesin pencari tertentu (crawler dalam contoh berikut)Pengguna-agen: crawler
Melarang:
Pengguna-agen: *
Larang: /
Selain itu, saya pikir perlu untuk memberikan penjelasan ekstensi dan memperkenalkan beberapa robot meta:
Tag meta robot terutama ditujukan untuk halaman tertentu. Seperti tag meta lainnya (seperti bahasa yang digunakan, deskripsi halaman, kata kunci, dll.), Tag meta robot juga ditempatkan di halaman <head> </head>, dan secara khusus digunakan untuk memberi tahu mesin pencari cara merangkak konten halaman.
Cara menulis robot meta tag:
Tidak ada perbedaan antara huruf besar dan kecil dalam tag meta robot. name = robot berarti semua mesin pencari dan dapat ditulis sebagai name = baiduspider untuk mesin pencari tertentu. Bagian konten memiliki empat opsi instruksi: indeks, noindex, ikuti, dan nofollow, dipisahkan oleh instruksi.
Perintah indeks memberi tahu robot pencarian untuk mengambil halaman;
Perintah ikuti menunjukkan bahwa robot pencarian dapat terus merangkak di sepanjang tautan pada halaman;
Nilai default tag meta robot adalah indeks dan ikuti, kecuali inktomi. Untuk itu, nilai default adalah indeks dan nofollow.
Dengan cara ini, ada empat kombinasi:
< Meta name = robot konten = indeks, ikuti >
< Meta name = robot konten = noIndex, ikuti >
< Meta name = robot konten = indeks, nofollow >
< Meta name = robot konten = noIndex, nofollow >
di dalam
< Meta name = robot konten = indeks, ikuti > dapat ditulis sebagai < meta name = robot konten = semua >;
< meta name = robot konten = noindex, nofollow > dapat ditulis sebagai < meta name = robot konten = tidak ada >
Saat ini, tampaknya sebagian besar robot mesin pencari mematuhi aturan robot.txt, dan untuk robot meta tag, tidak ada banyak dukungan saat ini, tetapi secara bertahap meningkat. Misalnya, mesin pencari terkenal Google sepenuhnya mendukungnya, dan Google juga telah menambahkan arsip perintah untuk membatasi apakah Google mempertahankan snapshot halaman web. Misalnya:
< Meta Name = GoogleBot Content = Index, Follow, Noarchive >