Robots.txt การแนะนำรายละเอียด

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-06-15 11:32:01

Robots.txt เป็นไฟล์ข้อความธรรมดาที่ผู้ดูแลเว็บไซต์สามารถประกาศว่าส่วนหนึ่งของเว็บไซต์ที่ไม่ต้องการเข้าถึงโดยหุ่นยนต์หรือระบุว่าเครื่องมือค้นหามีเนื้อหาที่ระบุเท่านั้น การแนะนำขั้นพื้นฐานเกี่ยวกับ robots.txt

เมื่อหุ่นยนต์ค้นหา (บางตัวเรียกว่าแมงมุมค้นหา) เข้าเยี่ยมชมเว็บไซต์จะตรวจสอบก่อนว่า robots.txt มีอยู่ในไดเรกทอรีรูทของเว็บไซต์หรือไม่ หากมีอยู่หุ่นยนต์ค้นหาจะกำหนดขอบเขตของการเข้าถึงตามเนื้อหาในไฟล์ หากไฟล์ไม่มีอยู่หุ่นยนต์ค้นหาจะคลานไปตามลิงก์

นอกจากนี้ Robots.txt จะต้องอยู่ในไดเรกทอรีรูทของไซต์และชื่อไฟล์จะต้องเป็นตัวพิมพ์เล็กทั้งหมด

Robots.txt การเขียนไวยากรณ์

ก่อนอื่นมาดูตัวอย่าง robots.txt: http://www.csswebs.org/robots.txt

โดยการเยี่ยมชมที่อยู่เฉพาะข้างต้นเราสามารถดูเนื้อหาเฉพาะของ Robots.txt ได้ดังนี้:

# robots.txt ไฟล์จาก http://www.csswebs.org

# หุ่นยนต์ทั้งหมดจะแมงมุมโดเมน

ผู้ใช้ตัวแทน: *

ไม่อนุญาต:

ข้อความข้างต้นหมายความว่าหุ่นยนต์ค้นหาทั้งหมดได้รับอนุญาตให้เข้าถึงไฟล์ทั้งหมดภายใต้เว็บไซต์ www.csswebs.org

การวิเคราะห์ไวยากรณ์เฉพาะ: ข้อความหลังจาก # คือข้อมูลคำอธิบาย ผู้ใช้ตัวแทน: ชื่อของหุ่นยนต์ค้นหาจะถูกติดตามและถ้าเป็น *โดยทั่วไปจะหมายถึงหุ่นยนต์ค้นหาทั้งหมด; ไม่อนุญาตให้เข้าถึงไดเรกทอรีไฟล์ที่อยู่เบื้องหลัง

ด้านล่างนี้ฉันจะแสดงรายการการใช้งานเฉพาะของ robots.txt:

อนุญาตให้เข้าถึงหุ่นยนต์ทั้งหมด

ผู้ใช้ตัวแทน: *

ไม่อนุญาต:

หรือคุณสามารถสร้างไฟล์/robots.txt ที่ว่างเปล่า

เครื่องมือค้นหาทั้งหมดถูกห้ามไม่ให้เข้าถึงส่วนใดส่วนหนึ่งของเว็บไซต์

ผู้ใช้ตัวแทน: *

ไม่อนุญาต: /

เครื่องมือค้นหาทั้งหมดถูกห้ามไม่ให้เข้าถึงหลายส่วนของเว็บไซต์ (ไดเรกทอรี 01, 02, 03 ในตัวอย่างต่อไปนี้)

ผู้ใช้ตัวแทน: *

ไม่อนุญาต: /01 /

ไม่อนุญาต: /02 /

ไม่อนุญาต: /03 /

ปิดใช้งานการเข้าถึงเครื่องมือค้นหา (badbot ในตัวอย่างต่อไปนี้)

ผู้ใช้ตัวแทน: badbot

ไม่อนุญาต: /

เข้าถึงเครื่องมือค้นหาบางอย่างเท่านั้น (ตัวรวบรวมข้อมูลในตัวอย่างต่อไปนี้)

ผู้ใช้ตัวแทน: Crawler

ไม่อนุญาต:

ผู้ใช้ตัวแทน: *

ไม่อนุญาต: /

นอกจากนี้ฉันคิดว่าจำเป็นต้องให้คำอธิบายส่วนขยายและแนะนำ Meta หุ่นยนต์บางส่วน:

แท็กเมตาหุ่นยนต์ส่วนใหญ่มุ่งเป้าไปที่หน้าเฉพาะ เช่นเดียวกับแท็กเมตาอื่น ๆ (เช่นภาษาที่ใช้คำอธิบายหน้าคำหลัก ฯลฯ ) แท็กเมตาหุ่นยนต์จะถูกวางไว้ใน <head> </head> ของหน้าเว็บและใช้เพื่อบอกเครื่องมือค้นหาโดยเฉพาะวิธีการรวบรวมข้อมูลเนื้อหาของหน้า

วิธีเขียนหุ่นยนต์เมตาแท็ก:

ไม่มีความแตกต่างระหว่างตัวพิมพ์ใหญ่บนและล่างในเมตาแท็กหุ่นยนต์ NAME = ROBOTS หมายถึงเครื่องมือค้นหาทั้งหมดและสามารถเขียนเป็น NAME = BAIDUSPIDER สำหรับเครื่องมือค้นหาเฉพาะ ส่วนเนื้อหามีสี่ตัวเลือกคำสั่ง: ดัชนี, noindex, ติดตามและ nofollow, คั่นด้วยคำแนะนำ

คำสั่งดัชนีบอกให้หุ่นยนต์ค้นหาคว้าหน้า;

คำสั่งติดตามระบุว่าหุ่นยนต์ค้นหาสามารถดำเนินการคลานไปตามลิงค์ในหน้า;

ค่าเริ่มต้นของแท็กเมตาหุ่นยนต์เป็นดัชนีและติดตามยกเว้น Inktomi สำหรับมันค่าเริ่มต้นคือดัชนีและ nofollow

ด้วยวิธีนี้มีสี่ชุด:

＜meta name = robots content = index, ติดตาม＞

＜meta name = robots content = noindex, ติดตาม＞

＜meta name = robots content = index, nofollow＞

＜meta name = robots content = noindex, nofollow＞

ใน

＜meta name = robots content = index, ติดตาม＞ สามารถเขียนเป็น ＜meta name = เนื้อหาหุ่นยนต์ = ทั้งหมด＞;

＜meta name = robots content = noindex, nofollow＞ สามารถเขียนเป็น ＜meta name = robots content = none＞

ในปัจจุบันดูเหมือนว่าหุ่นยนต์ของเครื่องมือค้นหาส่วนใหญ่จะปฏิบัติตามกฎของ Robots.txt และสำหรับ Meta Tag หุ่นยนต์มีการสนับสนุนไม่มากในปัจจุบัน แต่พวกเขาก็ค่อยๆเพิ่มขึ้นเรื่อย ๆ ตัวอย่างเช่นเครื่องมือค้นหาที่มีชื่อเสียง Google รองรับอย่างเต็มที่และ Google ได้เพิ่มการเก็บถาวรคำสั่งเพื่อ จำกัด ว่า Google ยังคงรักษาสแนปชอตหน้าเว็บหรือไม่ ตัวอย่างเช่น:

＜meta name = googlebot content = index, ติดตาม, nooarchive＞