ไฟล์ Robots เป็น "ข้อตกลงของสุภาพบุรุษ" ระหว่างเว็บไซต์และโปรแกรม Spider ไฟล์ Robots ไม่เพียงแต่ช่วยประหยัดทรัพยากรของเว็บไซต์เท่านั้น แต่ยังช่วยให้ Spiders รวบรวมข้อมูลเว็บได้อย่างมีประสิทธิภาพมากขึ้น ซึ่งจะช่วยปรับปรุงอันดับ
1: อนุญาตเฉพาะบอทของ Google เท่านั้น
หากคุณต้องการบล็อกโปรแกรมรวบรวมข้อมูลทั้งหมดยกเว้น Googlebot:
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/
Uer-agent: อนุญาตชื่อสไปเดอร์
ไม่อนุญาต:
2: ความแตกต่างระหว่าง "/folder/" และ "/folder"
ตัวอย่างเช่น:
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/โฟลเดอร์/
Disallow:/folder
"Disallow:/folder/" หมายความว่าไดเรกทอรีถูกดักจับ ไฟล์ทั้งหมดในไดเรกทอรีนี้ไม่ได้รับอนุญาตให้รวบรวมข้อมูล แต่อนุญาตให้รวบรวมข้อมูลได้
"Disallow:/folder": ไม่สามารถรวบรวมข้อมูลไฟล์และโฟลเดอร์ทั้งหมดภายใต้ /folder/ ได้
3: "*" จับคู่อักขระใดๆ
ตัวแทนผู้ใช้:*
บ่งชี้ถึงการป้องกันแมงมุมทั้งหมด หลังจากที่เราทำการประมวลผลแบบหลอกคงที่แล้ว จะมีหน้าเว็บแบบไดนามิกและหน้าเว็บแบบคงที่ในเวลาเดียวกัน คุณสามารถใช้เครื่องหมาย * เพื่อบล็อกหน้าเว็บแบบไดนามิกได้
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/?*?/
4: $matching URL สิ้นสุดลง
หากคุณต้องการสกัดกั้น URL ที่ลงท้ายด้วยสตริง คุณสามารถใช้ $ ได้ ตัวอย่างเช่น หากคุณต้องการสกัดกั้น URL ที่ลงท้ายด้วย .asp:
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/*.asp$
คุณยังสามารถเปิดเว็บไซต์ที่ค่อนข้างดีเพื่อดูว่าไฟล์โรบ็อตของพวกเขาถูกเขียนอย่างไร จากนั้นทำการแก้ไขตามความต้องการของคุณ ไฟล์โรบ็อตช่วยให้สไปเดอร์ใช้เวลามากขึ้นกับเนื้อหาที่จะรวบรวมข้อมูล ดังนั้นการเพิ่มประสิทธิภาพไฟล์โรบ็อตจึงมีความจำเป็น
บทความนี้มาจาก Dongyang Gaofu: http://mygaofu.com โปรดระบุลิงก์เมื่อพิมพ์ซ้ำ
บรรณาธิการบริหาร: ผู้เขียน Yangyang ฉันชอบปรับพื้นที่ส่วนตัวให้เหมาะสม