Robots.txt เป็นไฟล์ข้อความธรรมดาที่ผู้ดูแลเว็บไซต์สามารถประกาศว่าส่วนหนึ่งของเว็บไซต์ที่ไม่ต้องการเข้าถึงโดยหุ่นยนต์หรือระบุว่าเครื่องมือค้นหามีเนื้อหาที่ระบุเท่านั้น การแนะนำขั้นพื้นฐานเกี่ยวกับ robots.txt
Robots.txt เป็นไฟล์ข้อความธรรมดาที่ผู้ดูแลเว็บไซต์สามารถประกาศว่าส่วนหนึ่งของเว็บไซต์ที่ไม่ต้องการเข้าถึงโดยหุ่นยนต์หรือระบุว่าเครื่องมือค้นหามีเนื้อหาที่ระบุเท่านั้น
เมื่อหุ่นยนต์ค้นหา (บางตัวเรียกว่าแมงมุมค้นหา) เข้าเยี่ยมชมเว็บไซต์จะตรวจสอบก่อนว่า robots.txt มีอยู่ในไดเรกทอรีรูทของเว็บไซต์หรือไม่ หากมีอยู่หุ่นยนต์ค้นหาจะกำหนดขอบเขตของการเข้าถึงตามเนื้อหาในไฟล์ หากไฟล์ไม่มีอยู่หุ่นยนต์ค้นหาจะคลานไปตามลิงก์
นอกจากนี้ Robots.txt จะต้องอยู่ในไดเรกทอรีรูทของไซต์และชื่อไฟล์จะต้องเป็นตัวพิมพ์เล็กทั้งหมด
Robots.txt การเขียนไวยากรณ์ก่อนอื่นมาดูตัวอย่าง robots.txt: http://www.csswebs.org/robots.txt
โดยการเยี่ยมชมที่อยู่เฉพาะข้างต้นเราสามารถดูเนื้อหาเฉพาะของ Robots.txt ได้ดังนี้:
# robots.txt ไฟล์จาก http://www.csswebs.org
# หุ่นยนต์ทั้งหมดจะแมงมุมโดเมน
ผู้ใช้ตัวแทน: *
ไม่อนุญาต:
ข้อความข้างต้นหมายความว่าหุ่นยนต์ค้นหาทั้งหมดได้รับอนุญาตให้เข้าถึงไฟล์ทั้งหมดภายใต้เว็บไซต์ www.csswebs.org
การวิเคราะห์ไวยากรณ์เฉพาะ: ข้อความหลังจาก # คือข้อมูลคำอธิบาย ผู้ใช้ตัวแทน: ชื่อของหุ่นยนต์ค้นหาจะถูกติดตามและถ้าเป็น *โดยทั่วไปจะหมายถึงหุ่นยนต์ค้นหาทั้งหมด; ไม่อนุญาตให้เข้าถึงไดเรกทอรีไฟล์ที่อยู่เบื้องหลัง
ด้านล่างนี้ฉันจะแสดงรายการการใช้งานเฉพาะของ robots.txt:
อนุญาตให้เข้าถึงหุ่นยนต์ทั้งหมดผู้ใช้ตัวแทน: *
ไม่อนุญาต:
หรือคุณสามารถสร้างไฟล์/robots.txt ที่ว่างเปล่า
เครื่องมือค้นหาทั้งหมดถูกห้ามไม่ให้เข้าถึงส่วนใดส่วนหนึ่งของเว็บไซต์ผู้ใช้ตัวแทน: *
ไม่อนุญาต: /
เครื่องมือค้นหาทั้งหมดถูกห้ามไม่ให้เข้าถึงหลายส่วนของเว็บไซต์ (ไดเรกทอรี 01, 02, 03 ในตัวอย่างต่อไปนี้)ผู้ใช้ตัวแทน: *
ไม่อนุญาต: /01 /
ไม่อนุญาต: /02 /
ไม่อนุญาต: /03 /
ปิดใช้งานการเข้าถึงเครื่องมือค้นหา (badbot ในตัวอย่างต่อไปนี้)ผู้ใช้ตัวแทน: badbot
ไม่อนุญาต: /
เข้าถึงเครื่องมือค้นหาบางอย่างเท่านั้น (ตัวรวบรวมข้อมูลในตัวอย่างต่อไปนี้)ผู้ใช้ตัวแทน: Crawler
ไม่อนุญาต:
ผู้ใช้ตัวแทน: *
ไม่อนุญาต: /
นอกจากนี้ฉันคิดว่าจำเป็นต้องให้คำอธิบายส่วนขยายและแนะนำ Meta หุ่นยนต์บางส่วน:
แท็กเมตาหุ่นยนต์ส่วนใหญ่มุ่งเป้าไปที่หน้าเฉพาะ เช่นเดียวกับแท็กเมตาอื่น ๆ (เช่นภาษาที่ใช้คำอธิบายหน้าคำหลัก ฯลฯ ) แท็กเมตาหุ่นยนต์จะถูกวางไว้ใน <head> </head> ของหน้าเว็บและใช้เพื่อบอกเครื่องมือค้นหาโดยเฉพาะวิธีการรวบรวมข้อมูลเนื้อหาของหน้า
วิธีเขียนหุ่นยนต์เมตาแท็ก:
ไม่มีความแตกต่างระหว่างตัวพิมพ์ใหญ่บนและล่างในเมตาแท็กหุ่นยนต์ NAME = ROBOTS หมายถึงเครื่องมือค้นหาทั้งหมดและสามารถเขียนเป็น NAME = BAIDUSPIDER สำหรับเครื่องมือค้นหาเฉพาะ ส่วนเนื้อหามีสี่ตัวเลือกคำสั่ง: ดัชนี, noindex, ติดตามและ nofollow, คั่นด้วยคำแนะนำ
คำสั่งดัชนีบอกให้หุ่นยนต์ค้นหาคว้าหน้า;
คำสั่งติดตามระบุว่าหุ่นยนต์ค้นหาสามารถดำเนินการคลานไปตามลิงค์ในหน้า;
ค่าเริ่มต้นของแท็กเมตาหุ่นยนต์เป็นดัชนีและติดตามยกเว้น Inktomi สำหรับมันค่าเริ่มต้นคือดัชนีและ nofollow
ด้วยวิธีนี้มีสี่ชุด:
<meta name = robots content = index, ติดตาม>
<meta name = robots content = noindex, ติดตาม>
<meta name = robots content = index, nofollow>
<meta name = robots content = noindex, nofollow>
ใน
<meta name = robots content = index, ติดตาม> สามารถเขียนเป็น <meta name = เนื้อหาหุ่นยนต์ = ทั้งหมด>;
<meta name = robots content = noindex, nofollow> สามารถเขียนเป็น <meta name = robots content = none>
ในปัจจุบันดูเหมือนว่าหุ่นยนต์ของเครื่องมือค้นหาส่วนใหญ่จะปฏิบัติตามกฎของ Robots.txt และสำหรับ Meta Tag หุ่นยนต์มีการสนับสนุนไม่มากในปัจจุบัน แต่พวกเขาก็ค่อยๆเพิ่มขึ้นเรื่อย ๆ ตัวอย่างเช่นเครื่องมือค้นหาที่มีชื่อเสียง Google รองรับอย่างเต็มที่และ Google ได้เพิ่มการเก็บถาวรคำสั่งเพื่อ จำกัด ว่า Google ยังคงรักษาสแนปชอตหน้าเว็บหรือไม่ ตัวอย่างเช่น:
<meta name = googlebot content = index, ติดตาม, nooarchive>