robots.txt - это простой текстовый файл, в котором администратор веб -сайта может заявить, что часть веб -сайта, к которой не хочет получить доступ к роботам, или указывает, что поисковая система включает только указанный контент. Основное введение в robots.txt
robots.txt - это простой текстовый файл, в котором администратор веб -сайта может заявить, что часть веб -сайта, к которой не хочет получить доступ к роботам, или указывает, что поисковая система включает только указанный контент.
Когда поисковый робот (некоторые называемые Search Spider) посещает сайт, он сначала проверит, существует ли robots.txt в корневом каталоге сайта. Если он существует, поисковый робот определит область доступа в соответствии с контентом в файле; Если файл не существует, поисковый робот будет ползти по ссылке.
Кроме того, robots.txt должен быть помещен в корневую каталорию сайта, а имя файла должно быть все строчные.
robots.txt writing grammarВо -первых, давайте посмотрим на пример Robots.txt: http://www.csswebs.org/robots.txt
Посетив вышеуказанный конкретный адрес, мы можем увидеть конкретное содержание robots.txt следующим образом:
# Robots.txt файл с http://www.csswebs.org
# Все роботы будут паутью домен
Пользовательский агент: *
Отбросить:
Приведенный выше текст означает, что всем поисковым роботам разрешено получать доступ ко всем файлам в рамках сайта www.csswebs.org.
Конкретный анализ синтаксиса: текст после # - это объяснение информации; Пользовательский агент: имя поискового робота соблюдается, и если это *, это обычно относится ко всем поисковым роботам; DISLAING: файловый каталог позади не разрешается получить доступ.
Ниже я перечислю некоторые конкретные использование robots.txt:
Разрешить весь доступ к роботамПользовательский агент: *
Отбросить:
Или вы можете создать пустой файл/robots.txt файл
Всем поисковым системам запрещено получить доступ к любой части веб -сайтаПользовательский агент: *
Запретить: /
Всем поисковым системам запрещено получить доступ к нескольким частям веб -сайта (каталоги 01, 02, 03 в следующем примере)Пользовательский агент: *
Запретить: /01 /
Отбросить: /02 /
Отбросить: /03 /
Отключить доступ к поисковой системе (Badbot в следующем примере)Пользовательский агент: Badbot
Запретить: /
Только доступ к определенной поисковой системе (Crawler в следующем примере)Пользовательский агент: Crawler
Отбросить:
Пользовательский агент: *
Запретить: /
Кроме того, я думаю, что необходимо дать объяснение расширения и ввести несколько роботов мета:
Метеги -роботы в основном направлены на определенные страницы. Как и другие метатеги (например, используемый язык, описание страницы, ключевые слова и т. Д.), Мета тега роботов также помещается на странице <head> </head> и специально используется, чтобы сообщить поисковые системы, как ползать по содержанию страницы.
Как написать метатеги -роботы:
Нет разницы между верхним и нижним корпусом в метатете роботов. name = robots означает все поисковые системы и могут быть записаны как имя = baiduspider для конкретной поисковой системы. Часть содержимого имеет четыре варианта инструкции: индекс, noindex, следуют и nofollow, разделенные инструкциями.
Команда Index сообщает поисковому роботу захватить страницу;
Команда «Следующие» указывает, что поисковый робот может продолжать ползать по ссылке на странице;
Значения по умолчанию Meta TAG являются индексом и следуют, кроме Inktomi. Для этого значения по умолчанию являются индекс и нофоллоу.
Таким образом, есть четыре комбинации:
< Meta name = Robots Content = index, следуйте >
< Meta name = Robots Content = noindex, следуйте >
< Meta name = Robots Content = index, nofollow >
< Meta name = Robots Content = noindex, nofollow >
в
< Meta name = Robots Content = index, следуйте > можно записать как < Meta name = Robots Content = All >;
< Meta name = Robots Content = noIndex, nofollow > можно записать как < Meta name = Robots Content = нет >
В настоящее время кажется, что большинство роботов поисковых систем соблюдают правила robots.txt, и для метаговой роботов в настоящее время не так много поддержки, но они постепенно увеличиваются. Например, знаменитая поисковая система Google полностью поддерживает его, и Google также добавил командный архив, чтобы ограничить, сохраняет ли Google снимки веб -страницы. Например:
< Meta name = GoogleBot Content = Index, следуйте, норхив >