robots.txt Introducción detallada

Autor：Eve Cole Fecha de actualización：2025-06-15 11:32:01

Robots.txt es un archivo de texto sin formato en el que el administrador del sitio web puede declarar que la parte del sitio web al que no desea ser accedido por robots, o especificar que el motor de búsqueda solo incluye contenido especificado. Introducción básica a los robots.txt

Cuando un robot de búsqueda (algunos llamado Search Spider) visita un sitio, primero verificará si Robots.txt existe en el directorio raíz del sitio. Si existe, el robot de búsqueda determinará el alcance de acceso de acuerdo con el contenido del archivo; Si el archivo no existe, el robot de búsqueda se arrastrará a lo largo del enlace.

Además, Robots.txt debe colocarse en el directorio raíz de un sitio, y el nombre del archivo debe ser todo minúscula.

robots.txt escribiendo gramática

Primero, echemos un vistazo a un Robots.txt Ejemplo: http://www.csswebs.org/robots.txt

Al visitar la dirección específica anterior, podemos ver el contenido específico de robots.txt de la siguiente manera:

# Archivo robots.txt desde http://www.csswebs.org

# Todos los robots arragarán el dominio

Agente de usuario: *

Rechazar:

El texto anterior significa que todos los robots de búsqueda pueden acceder a todos los archivos en el sitio www.csswebs.org.

Análisis de sintaxis específico: el texto después de # es la información de explicación; Agente de usuario: se sigue el nombre del robot de búsqueda, y si es *, generalmente se refiere a todos los robots de búsqueda; Desactivar: no se permite acceder al directorio de archivos detrás.

A continuación, enumeraré algunos usos específicos de robots.txt:

Permitir todo el acceso al robot

Agente de usuario: *

Rechazar:

O puede crear un archivo vacío/robots.txt

Todos los motores de búsqueda tienen prohibido acceder a cualquier parte del sitio web

Agente de usuario: *

No permitir: /

Todos los motores de búsqueda tienen prohibido acceder a varias partes del sitio web (directorios 01, 02, 03 en el siguiente ejemplo)

Agente de usuario: *

No permitir: /01 /

No permitir: /02 /

No permitir: /03 /

Deshabilitar el acceso a un motor de búsqueda (Badbot en el siguiente ejemplo)

Agente de usuario: badbot

No permitir: /

Solo acceso a un determinado motor de búsqueda (rastreador en el siguiente ejemplo)

Agente de usuario: rastreador

Rechazar:

Agente de usuario: *

No permitir: /

Además, creo que es necesario proporcionar una explicación de extensión e introducir algunos meta de robots:

Las metaetiquetas de los robots están dirigidas principalmente a páginas específicas. Al igual que otras metaetiquetas (como el lenguaje utilizado, la descripción de la página, las palabras clave, etc.), la metaetiqueta de los robots también se coloca en el <head> </thead> de la página, y se usa específicamente para decirle a los motores de búsqueda cómo rastrear el contenido de la página.

Cómo escribir metaetiquetas de robots:

No hay diferencia entre la caja superior y la minúscula en la metaetelera de los robots. Name = Robots significa todos los motores de búsqueda y se puede escribir como nombre = BaidUspider para un motor de búsqueda específico. La parte del contenido tiene cuatro opciones de instrucción: índice, noindex, seguimiento y nofollow, separado por instrucciones.

El comando de índice le dice al robot de búsqueda que tome la página;

El siguiente comando indica que el robot de búsqueda puede continuar arrastrándose a lo largo del enlace en la página;

Los valores predeterminados de la metaetiqueta de los robots son índice y siguen, excepto Inktomi. Para ello, los valores predeterminados son índice y nofollow.

De esta manera, hay cuatro combinaciones:

＜ meta name = robots content = índice, siga ＞

＜ meta name = robots content = noindex, siga ＞

＜ meta name = robots content = index, nofollow ＞

＜ meta name = robots content = noindex, nofollow ＞

＜ meta name = robots content = índice, seguir ＞ se puede escribir como ＜ meta name = robots content = all ＞;

＜ meta name = robots content = noindex, nofollow ＞ se puede escribir como ＜ meta name = robots content = none ＞

En la actualidad, parece que la mayoría de los robots de los motores de búsqueda cumplen con las reglas de robots.txt, y para la metaetiqueta de los robots, no hay muchos soportes actualmente, pero están aumentando gradualmente. Por ejemplo, el famoso motor de búsqueda Google lo admite plenamente, y Google también ha agregado un archivo de comando para limitar si Google retiene las instantáneas de la página web. Por ejemplo:

＜ meta name = googlebot content = index, seguir, noarchive ＞