Robots.txt est un fichier texte brut dans lequel l'administrateur du site Web peut déclarer que la partie du site Web qui ne veut pas être accessible par des robots ou spécifier que le moteur de recherche comprend uniquement du contenu spécifié. Introduction de base à robots.txt
Robots.txt est un fichier texte brut dans lequel l'administrateur du site Web peut déclarer que la partie du site Web qui ne veut pas être accessible par des robots ou spécifier que le moteur de recherche comprend uniquement du contenu spécifié.
Lorsqu'un robot de recherche (certains appelé Spider) visite un site, il vérifie d'abord si Robots.txt existe dans le répertoire racine du site. S'il existe, le robot de recherche déterminera la portée de l'accès en fonction du contenu dans le fichier; Si le fichier n'existe pas, le robot de recherche rampera le long du lien.
De plus, Robots.txt doit être placé dans le répertoire racine d'un site, et le nom de fichier doit être tous minuscules.
Robots.txt Writing GrammarTout d'abord, jetons un œil à un robots.txt Exemple: http://www.csswebs.org/robots.txt
En visitant l'adresse spécifique ci-dessus, nous pouvons voir le contenu spécifique de Robots.txt comme suit:
Fichier robots.txt à partir de http://www.csswebs.org
# Tous les robots arderont le domaine
Agent utilisateur: *
Refuser:
Le texte ci-dessus signifie que tous les robots de recherche sont autorisés à accéder à tous les fichiers sur le site www.csswebs.org.
Analyse de syntaxe spécifique: le texte après # est les informations d'explication; User-Agent: le nom du robot de recherche est suivi, et s'il est *, il fait généralement référence à tous les robots de recherche; Désactiver: le répertoire de fichiers derrière ne peut pas être accessible.
Ci-dessous, je vais énumérer quelques usages spécifiques de robots.txt:
Autoriser l'accès à tous les robotsAgent utilisateur: *
Refuser:
Ou vous pouvez créer un fichier vide / robots.txt
Tous les moteurs de recherche sont interdits d'accéder à n'importe quelle partie du site WebAgent utilisateur: *
Désactiver: /
Tous les moteurs de recherche sont interdits d'accéder à plusieurs parties du site Web (répertoires 01, 02, 03 dans l'exemple suivant)Agent utilisateur: *
Désactiver: / 01 /
Désactiver: / 02 /
Désactiver: / 03 /
Désactiver l'accès à un moteur de recherche (Badbot dans l'exemple suivant)Agent utilisateur: Badbot
Désactiver: /
Uniquement l'accès à un certain moteur de recherche (robot dans l'exemple suivant)Agent utilisateur: Crawler
Refuser:
Agent utilisateur: *
Désactiver: /
De plus, je pense qu'il est nécessaire de fournir une explication d'extension et d'introduire quelques robots Meta:
Les balises de méta des robots sont principalement destinées à des pages spécifiques. Comme les autres balises Meta (telles que la langue utilisée, la description de la page, les mots clés, etc.), la balise Meta Robots est également placée dans la <éadre> </ada> de la page, et est spécifiquement utilisé pour dire aux moteurs de recherche comment ramper le contenu de la page.
Comment écrire des robots méta-balises:
Il n'y a pas de différence entre les boîtiers supérieurs et inférieurs dans la balise Meta Robots. name = robots signifie tous les moteurs de recherche et peut être écrit comme name = baidUspider pour un moteur de recherche spécifique. La partie de contenu a quatre options d'instructions: index, noindex, suivi et nofollow, séparées par instructions.
La commande index indique au robot de recherche de saisir la page;
La commande suivante indique que le robot de recherche peut continuer à ramper le long du lien sur la page;
Les valeurs par défaut de la balise Meta Robots sont Index et suivent, sauf Inktomi. Pour cela, les valeurs par défaut sont index et nofollow.
De cette façon, il y a quatre combinaisons:
< meta name = robots contenu = index, suivez >
< Meta name = Robots Content = NOINDEX, Suivez >
< Meta name = Robots Content = index, nofollow >
< Meta name = Robots Content = NOINDEX, NOfollow >
dans
< meta name = robots contenu = index, suivez > peut être écrit comme < meta name = robots contenu = tout >;
< meta name = robots contenu = noindex, nofollow > peut être écrit comme < meta name = robots contenu = aucun >
À l'heure actuelle, il semble que la plupart des robots de moteur de recherche respectent les règles de Robots.txt, et pour la balise Meta Robots, il n'y a pas beaucoup de soutien actuellement, mais ils augmentent progressivement. Par exemple, le célèbre moteur de recherche Google le prend en charge entièrement, et Google a également ajouté une archive de commandes pour limiter si Google conserve des instantanés de page Web. Par exemple:
< meta name = googlebot contenu = index, suivez, noarchive >