robots.txt Introdução detalhada

Autor：Eve Cole Data da Última Atualização：2025-06-15 11:32:01

robots.txt é um arquivo de texto simples no qual o administrador do site pode declarar que a parte do site que não deseja ser acessada por robôs ou especificar que o mecanismo de pesquisa inclui apenas conteúdo especificado. Introdução básica ao robots.txt

Quando um robô de pesquisa (alguns chamados Spider) visita um site, ele primeiro verificará se o robots.txt existe no diretório raiz do site. Se existir, o robô de pesquisa determinará o escopo do acesso de acordo com o conteúdo do arquivo; Se o arquivo não existir, o robô de pesquisa irá rastejar ao longo do link.

Além disso, o robots.txt deve ser colocado no diretório raiz de um site, e o nome do arquivo deve ser todo minúsculo.

robots.txt escrevendo gramática

Primeiro, vamos dar uma olhada em um exemplo robots.txt: http://www.csswebs.org/robots.txt

Ao visitar o endereço específico acima, podemos ver o conteúdo específico do robots.txt da seguinte forma:

# Robots.txt arquivo de http://www.csswebs.org

# Todos os robôs irão arrastar o domínio

Agente de usuário: *

Proibir:

O texto acima significa que todos os robôs de pesquisa podem acessar todos os arquivos no site www.csswebs.org.

Análise de sintaxe específica: o texto após # é a informação de explicação; Agente de usuário: o nome do robô de pesquisa é seguido e, se for *, geralmente se refere a todos os robôs de pesquisa; Não permitir: o diretório de arquivos por trás não pode ser acessado.

Abaixo, listarei alguns usos específicos do robots.txt:

Permitir todo o acesso ao robô

Agente de usuário: *

Proibir:

Ou você pode criar um arquivo de arquivo vazio/robots.txt

Todos os mecanismos de pesquisa estão proibidos de acessar qualquer parte do site

Agente de usuário: *

Proibir: /

Todos os mecanismos de pesquisa são proibidos de acessar várias partes do site (diretórios 01, 02, 03 no exemplo a seguir)

Agente de usuário: *

Não permitir: /01 /

Não permitir: /02 /

Proibir: /03 /

Desative o acesso a um mecanismo de pesquisa (Badbot no exemplo a seguir)

Agente de usuário: Badbot

Proibir: /

Acesso apenas a um determinado mecanismo de pesquisa (rastreador no exemplo a seguir)

Agente de usuário: rastreador

Proibir:

Agente de usuário: *

Proibir: /

Além disso, acho que é necessário fornecer uma explicação de extensão e apresentar alguns robôs meta:

Os meta tags robôs são direcionados principalmente para páginas específicas. Como outras tags de meta (como o idioma usado, a descrição da página, palavras -chave etc.), a meta tag de robôs também é colocada no <head> </head> da página e é usada especificamente para informar aos mecanismos de pesquisa como rastejar o conteúdo da página.

Como escrever robôs meta tags:

Não há diferença entre a parte superior e a minúscula na meta -tag de robôs. nome = robôs significa todos os mecanismos de pesquisa e podem ser escritos como nome = Baiduspider para um mecanismo de pesquisa específico. A parte do conteúdo possui quatro opções de instrução: Index, Noindex, Siga e Nofollow, separadas por instruções.

O comando Index diz ao robô de pesquisa para pegar a página;

O comando a seguir indica que o robô de pesquisa pode continuar rastejando ao longo do link na página;

Os valores padrão da meta tag robôs são índices e seguem, exceto Inktomi. Para isso, os valores padrão são índices e nofollow.

Dessa forma, existem quatro combinações:

＜ Meta Nome = Robots Content = Índice, siga ＞

＜ Meta Nome = Robots Content = Noindex, siga ＞

＜ META NOME = Robots Content = Índice, Nofollow ＞

＜ Meta Nome = Robots Content = Noindex, Nofollow ＞

＜ Meta Nome = Robots Content = Índice, Siga ＞ pode ser escrito como ＜ meta nome = conteúdo de robôs = all ＞;

＜ Meta Nome = Robots Content = NoIndex, Nofollow ＞ pode ser escrito como ＜ meta nome = conteúdo de robôs = nenhum ＞

Atualmente, parece que a maioria dos robôs de mecanismos de pesquisa cumpre as regras de robots.txt e, para a meta Tag Robots, não há muitos suporte atualmente, mas eles estão aumentando gradualmente. Por exemplo, o famoso mecanismo de pesquisa que o Google o suporta totalmente, e o Google também adicionou um arquivo de comando para limitar se o Google retém instantâneos da página da web. Por exemplo:

＜ Meta Nome = GoogleBot Content = Índice, Siga, Noarchive ＞