robots.txt é um arquivo de texto simples no qual o administrador do site pode declarar que a parte do site que não deseja ser acessada por robôs ou especificar que o mecanismo de pesquisa inclui apenas conteúdo especificado. Introdução básica ao robots.txt
robots.txt é um arquivo de texto simples no qual o administrador do site pode declarar que a parte do site que não deseja ser acessada por robôs ou especificar que o mecanismo de pesquisa inclui apenas conteúdo especificado.
Quando um robô de pesquisa (alguns chamados Spider) visita um site, ele primeiro verificará se o robots.txt existe no diretório raiz do site. Se existir, o robô de pesquisa determinará o escopo do acesso de acordo com o conteúdo do arquivo; Se o arquivo não existir, o robô de pesquisa irá rastejar ao longo do link.
Além disso, o robots.txt deve ser colocado no diretório raiz de um site, e o nome do arquivo deve ser todo minúsculo.
robots.txt escrevendo gramáticaPrimeiro, vamos dar uma olhada em um exemplo robots.txt: http://www.csswebs.org/robots.txt
Ao visitar o endereço específico acima, podemos ver o conteúdo específico do robots.txt da seguinte forma:
# Robots.txt arquivo de http://www.csswebs.org
# Todos os robôs irão arrastar o domínio
Agente de usuário: *
Proibir:
O texto acima significa que todos os robôs de pesquisa podem acessar todos os arquivos no site www.csswebs.org.
Análise de sintaxe específica: o texto após # é a informação de explicação; Agente de usuário: o nome do robô de pesquisa é seguido e, se for *, geralmente se refere a todos os robôs de pesquisa; Não permitir: o diretório de arquivos por trás não pode ser acessado.
Abaixo, listarei alguns usos específicos do robots.txt:
Permitir todo o acesso ao robôAgente de usuário: *
Proibir:
Ou você pode criar um arquivo de arquivo vazio/robots.txt
Todos os mecanismos de pesquisa estão proibidos de acessar qualquer parte do siteAgente de usuário: *
Proibir: /
Todos os mecanismos de pesquisa são proibidos de acessar várias partes do site (diretórios 01, 02, 03 no exemplo a seguir)Agente de usuário: *
Não permitir: /01 /
Não permitir: /02 /
Proibir: /03 /
Desative o acesso a um mecanismo de pesquisa (Badbot no exemplo a seguir)Agente de usuário: Badbot
Proibir: /
Acesso apenas a um determinado mecanismo de pesquisa (rastreador no exemplo a seguir)Agente de usuário: rastreador
Proibir:
Agente de usuário: *
Proibir: /
Além disso, acho que é necessário fornecer uma explicação de extensão e apresentar alguns robôs meta:
Os meta tags robôs são direcionados principalmente para páginas específicas. Como outras tags de meta (como o idioma usado, a descrição da página, palavras -chave etc.), a meta tag de robôs também é colocada no <head> </head> da página e é usada especificamente para informar aos mecanismos de pesquisa como rastejar o conteúdo da página.
Como escrever robôs meta tags:
Não há diferença entre a parte superior e a minúscula na meta -tag de robôs. nome = robôs significa todos os mecanismos de pesquisa e podem ser escritos como nome = Baiduspider para um mecanismo de pesquisa específico. A parte do conteúdo possui quatro opções de instrução: Index, Noindex, Siga e Nofollow, separadas por instruções.
O comando Index diz ao robô de pesquisa para pegar a página;
O comando a seguir indica que o robô de pesquisa pode continuar rastejando ao longo do link na página;
Os valores padrão da meta tag robôs são índices e seguem, exceto Inktomi. Para isso, os valores padrão são índices e nofollow.
Dessa forma, existem quatro combinações:
< Meta Nome = Robots Content = Índice, siga >
< Meta Nome = Robots Content = Noindex, siga >
< META NOME = Robots Content = Índice, Nofollow >
< Meta Nome = Robots Content = Noindex, Nofollow >
em
< Meta Nome = Robots Content = Índice, Siga > pode ser escrito como < meta nome = conteúdo de robôs = all >;
< Meta Nome = Robots Content = NoIndex, Nofollow > pode ser escrito como < meta nome = conteúdo de robôs = nenhum >
Atualmente, parece que a maioria dos robôs de mecanismos de pesquisa cumpre as regras de robots.txt e, para a meta Tag Robots, não há muitos suporte atualmente, mas eles estão aumentando gradualmente. Por exemplo, o famoso mecanismo de pesquisa que o Google o suporta totalmente, e o Google também adicionou um arquivo de comando para limitar se o Google retém instantâneos da página da web. Por exemplo:
< Meta Nome = GoogleBot Content = Índice, Siga, Noarchive >