Robots.txt подробное введение

Автор：Eve Cole Время обновления：2025-06-15 11:32:01

robots.txt - это простой текстовый файл, в котором администратор веб -сайта может заявить, что часть веб -сайта, к которой не хочет получить доступ к роботам, или указывает, что поисковая система включает только указанный контент. Основное введение в robots.txt

Когда поисковый робот (некоторые называемые Search Spider) посещает сайт, он сначала проверит, существует ли robots.txt в корневом каталоге сайта. Если он существует, поисковый робот определит область доступа в соответствии с контентом в файле; Если файл не существует, поисковый робот будет ползти по ссылке.

Кроме того, robots.txt должен быть помещен в корневую каталорию сайта, а имя файла должно быть все строчные.

robots.txt writing grammar

Во -первых, давайте посмотрим на пример Robots.txt: http://www.csswebs.org/robots.txt

Посетив вышеуказанный конкретный адрес, мы можем увидеть конкретное содержание robots.txt следующим образом:

# Robots.txt файл с http://www.csswebs.org

# Все роботы будут паутью домен

Пользовательский агент: *

Отбросить:

Приведенный выше текст означает, что всем поисковым роботам разрешено получать доступ ко всем файлам в рамках сайта www.csswebs.org.

Конкретный анализ синтаксиса: текст после # - это объяснение информации; Пользовательский агент: имя поискового робота соблюдается, и если это *, это обычно относится ко всем поисковым роботам; DISLAING: файловый каталог позади не разрешается получить доступ.

Ниже я перечислю некоторые конкретные использование robots.txt:

Разрешить весь доступ к роботам

Пользовательский агент: *

Отбросить:

Или вы можете создать пустой файл/robots.txt файл

Всем поисковым системам запрещено получить доступ к любой части веб -сайта

Пользовательский агент: *

Запретить: /

Всем поисковым системам запрещено получить доступ к нескольким частям веб -сайта (каталоги 01, 02, 03 в следующем примере)

Пользовательский агент: *

Запретить: /01 /

Отбросить: /02 /

Отбросить: /03 /

Отключить доступ к поисковой системе (Badbot в следующем примере)

Пользовательский агент: Badbot

Запретить: /

Только доступ к определенной поисковой системе (Crawler в следующем примере)

Пользовательский агент: Crawler

Отбросить:

Пользовательский агент: *

Запретить: /

Кроме того, я думаю, что необходимо дать объяснение расширения и ввести несколько роботов мета:

Метеги -роботы в основном направлены на определенные страницы. Как и другие метатеги (например, используемый язык, описание страницы, ключевые слова и т. Д.), Мета тега роботов также помещается на странице <head> </head> и специально используется, чтобы сообщить поисковые системы, как ползать по содержанию страницы.

Как написать метатеги -роботы:

Нет разницы между верхним и нижним корпусом в метатете роботов. name = robots означает все поисковые системы и могут быть записаны как имя = baiduspider для конкретной поисковой системы. Часть содержимого имеет четыре варианта инструкции: индекс, noindex, следуют и nofollow, разделенные инструкциями.

Команда Index сообщает поисковому роботу захватить страницу;

Команда «Следующие» указывает, что поисковый робот может продолжать ползать по ссылке на странице;

Значения по умолчанию Meta TAG являются индексом и следуют, кроме Inktomi. Для этого значения по умолчанию являются индекс и нофоллоу.

Таким образом, есть четыре комбинации:

＜ Meta name = Robots Content = index, следуйте ＞

＜ Meta name = Robots Content = noindex, следуйте ＞

＜ Meta name = Robots Content = index, nofollow ＞

＜ Meta name = Robots Content = noindex, nofollow ＞

＜ Meta name = Robots Content = index, следуйте ＞ можно записать как ＜ Meta name = Robots Content = All ＞;

＜ Meta name = Robots Content = noIndex, nofollow ＞ можно записать как ＜ Meta name = Robots Content = нет ＞

В настоящее время кажется, что большинство роботов поисковых систем соблюдают правила robots.txt, и для метаговой роботов в настоящее время не так много поддержки, но они постепенно увеличиваются. Например, знаменитая поисковая система Google полностью поддерживает его, и Google также добавил командный архив, чтобы ограничить, сохраняет ли Google снимки веб -страницы. Например:

＜ Meta name = GoogleBot Content = Index, следуйте, норхив ＞