Los archivos de robots son un "acuerdo de caballeros" entre el sitio web y el programa araña: los archivos de robots no solo pueden ahorrar recursos del sitio web, sino que también ayudan a las arañas a rastrear la web de manera más efectiva, mejorando así las clasificaciones.
1: Permitir solo el robot de Google
Si desea bloquear todos los rastreadores excepto el robot de Google:
Agente de usuario:*
rechazar:/
Uer-agent: nombre de araña permitido
Rechazar:
2: La diferencia entre "/carpeta/" y "/carpeta"
Por ejemplo:
Agente de usuario:*
No permitir:/carpeta/
No permitir:/carpeta
"Disallow:/folder/" significa que un directorio está interceptado. No se permite rastrear todos los archivos en este directorio, pero se permite rastrear carpeta.hlml.
"No permitir:/carpeta": todos los archivos y carpeta.html en /carpeta/ no se pueden rastrear.
3: "*" coincide con cualquier carácter
Agente de usuario:*
Indica bloquear todas las arañas. Después de realizar el procesamiento pseudoestático, habrá páginas web dinámicas y páginas web estáticas al mismo tiempo. El contenido de las páginas web es exactamente el mismo y se considera una página espejo. Por lo tanto, debemos bloquear la página web dinámica. Puede utilizar el signo * para bloquear las páginas web dinámicas.
Agente de usuario:*
Rechazar:/?*?/
4: $final de la URL coincidente
Si desea interceptar URL que terminan con una determinada cadena, puede usar $. Por ejemplo, si desea interceptar URL que terminan con .asp:
Agente de usuario:*
No permitir:/*.asp$
También puede abrir sitios web relativamente buenos para ver cómo se escriben sus archivos robots y luego realizar las modificaciones correspondientes según sus propias necesidades. Los archivos de robots pueden permitir que las arañas dediquen más tiempo al contenido que se va a rastrear, por lo que es necesario optimizar los archivos de robots.
Este artículo proviene de Dongyang Gaofu: http://mygaofu.comIndique el enlace al reimprimir.
Editor en jefe: Autor de Yangyang Me encanta optimizar el espacio personal