Robots.txt هو ملف نصي عادي يمكن أن يعلن فيه مسؤول موقع الويب أن جزء موقع الويب الذي لا يريد الوصول إليه بواسطة الروبوتات ، أو تحديد أن محرك البحث يتضمن فقط محتوى محدد. مقدمة أساسية إلى robots.txt
Robots.txt هو ملف نصي عادي يمكن أن يعلن فيه مسؤول موقع الويب أن جزء موقع الويب الذي لا يريد الوصول إليه بواسطة الروبوتات ، أو تحديد أن محرك البحث يتضمن فقط محتوى محدد.
عندما يزور روبوت البحث (البعض يسمى Search Spider) موقعًا ، سيتحقق أولاً مما إذا كان Robots.txt موجود في الدليل الجذر للموقع. إذا كان موجودًا ، فسوف يحدد روبوت البحث نطاق الوصول وفقًا للمحتوى في الملف ؛ إذا لم يكن الملف موجودًا ، فسوف يزحف روبوت البحث على طول الرابط.
بالإضافة إلى ذلك ، يجب وضع Robots.txt في الدليل الجذر للموقع ، ويجب أن يكون اسم الملف كلهًا صغيرًا.
Robots.txt كتابة القواعدأولاً ، دعونا نلقي نظرة على مثال على robots.txt: http://www.csswebs.org/robots.txt
من خلال زيارة العنوان المحدد أعلاه ، يمكننا أن نرى المحتوى المحدد لـ Robots.txt على النحو التالي:
# robots.txt ملف من http://www.csswebs.org
# جميع الروبوتات ستعين المجال
عامل المستخدم: *
عدم السماح:
يعني النص أعلاه أنه يُسمح لجميع روبوتات البحث بالوصول إلى جميع الملفات تحت موقع www.csswebs.org.
تحليل بناء الجملة المحدد: النص بعد # هو معلومات التفسير ؛ عامل المستخدم: يتم اتباع اسم روبوت البحث ، وإذا كان *، فإنه يشير عمومًا إلى جميع روبوتات البحث ؛ عدم السماح: لا يُسمح بالوصول إلى دليل الملف وراءه.
أدناه ، سأدرج بعض الاستخدامات المحددة من robots.txt:
السماح لجميع وصول الروبوتعامل المستخدم: *
عدم السماح:
أو يمكنك إنشاء ملف ملف/robots.txt فارغ
يحظر على جميع محركات البحث الوصول إلى أي جزء من الموقععامل المستخدم: *
عدم السماح: /
يحظر على جميع محركات البحث الوصول إلى عدة أجزاء من الموقع (الدلائل 01 ، 02 ، 03 في المثال التالي)عامل المستخدم: *
عدم السماح: /01 /
عدم السماح: /02 /
عدم السماح: /03 /
تعطيل الوصول إلى محرك البحث (Badbot في المثال التالي)وكيل المستخدم: بادبوت
عدم السماح: /
فقط الوصول إلى محرك بحث معين (زاحف في المثال التالي)عامل المستخدم: الزاحف
عدم السماح:
عامل المستخدم: *
عدم السماح: /
بالإضافة إلى ذلك ، أعتقد أنه من الضروري تقديم شرح تمديد وإدخال بعض الروبوتات الوصفية:
تهدف علامات الروبوتات الوصفية بشكل أساسي إلى صفحات محددة. مثل علامات التعريف الأخرى (مثل اللغة المستخدمة ، وصف الصفحة ، الكلمات الرئيسية ، وما إلى ذلك) ، يتم وضع علامة الروبوتات الوصفية أيضًا في الصفحة <head> </head> ، ويستخدم على وجه التحديد لإخبار محركات البحث بكيفية الزحف لمحتوى الصفحة.
كيفية كتابة علامات الروبوتات الوصفية:
لا يوجد فرق بين الحالة العلوية والسفلية في علامة التعريف الروبوتات. الاسم = الروبوتات تعني جميع محركات البحث ويمكن كتابتها كاسم = baiduspider لمحرك بحث معين. يحتوي جزء المحتوى على أربعة خيارات تعليمات: الفهرس ، Noindex ، متابعة ، و nofollow ، مفصولة بالتعليمات.
يخبر أمر الفهرس روبوت البحث للاستيلاء على الصفحة ؛
يشير الأمر المتابعة إلى أن روبوت البحث يمكن أن يستمر في الزحف على طول الرابط على الصفحة ؛
القيم الافتراضية لعلامة META الروبوتات هي الفهرس والمتابعة ، باستثناء inktomi. لذلك ، فإن القيم الافتراضية هي الفهرس و nofollow.
بهذه الطريقة ، هناك أربع مجموعات:
< اسم التعريف = محتوى الروبوتات = فهرس ، اتبع >
< اسم التعريف = محتوى الروبوتات = noindex ، اتبع >
< اسم التعريف = محتوى الروبوتات = الفهرس ، nofollow >
< اسم meta = محتوى الروبوتات = noindex ، nofollow >
في
< اسم meta = محتوى الروبوتات = فهرس ، اتبع > يمكن كتابته كـ < meta name = robots content = all > ؛
< اسم meta = محتوى الروبوتات = noindex ، يمكن كتابة nofollow > كـ < meta name = Robots content = none >
في الوقت الحالي ، يبدو أن معظم روبوتات محرك البحث تلتزم بقواعد Robots.txt ، وبالنسبة لعلامة Meta Robots ، لا يوجد الكثير من الدعم حاليًا ، لكنها تزداد تدريجياً. على سبيل المثال ، يدعمه محرك البحث الشهير Google بالكامل ، وقد أضافت Google أيضًا أرشيف أوامر للحد من ما إذا كانت Google تحتفظ بقطات صفحة الويب. على سبيل المثال:
< اسم التعريف = محتوى GoogleBot = الفهرس ، اتبع ، noarchive >