Robots.txt ist eine einfache Textdatei, in der der Website -Administrator erklären kann, dass der Teil der Website, auf das nicht von Robotern zugegriffen werden soll, oder angeben, dass die Suchmaschine nur angegebene Inhalte enthält. Grundlegende Einführung in Robots.txt
Robots.txt ist eine einfache Textdatei, in der der Website -Administrator erklären kann, dass der Teil der Website, auf das nicht von Robotern zugegriffen werden soll, oder angeben, dass die Suchmaschine nur angegebene Inhalte enthält.
Wenn ein Suchroboter (einige angerufene Suchspinnen) eine Site besucht, wird zunächst prüfen, ob Robots.txt im Stammverzeichnis der Website vorhanden ist. Wenn es vorhanden ist, bestimmt der Suchroboter den Zugriffsumfang gemäß dem Inhalt in der Datei. Wenn die Datei nicht vorhanden ist, kriecht der Suchroboter den Link entlang.
Darüber hinaus muss Robots.txt im Stammverzeichnis einer Site platziert werden, und der Dateiname muss alle Kleinbuchstaben sein.
Robots.txt schreiben GrammatikSchauen wir uns zunächst einen Beispiel für ein Beispiel für Robots.txt an: http://www.csswebs.org/robots.txt
Durch den Besuch der oben genannten Adresse können wir den spezifischen Inhalt von Robots.txt wie folgt sehen:
# Robots.txt -Datei von http://www.csswebs.org
# Alle Roboter werden die Domain spinnen
Benutzer-Agent: *
Nicht zulassen:
Der obige Text bedeutet, dass alle Suchroboter unter der Website www.csswebs.org auf alle Dateien zugreifen dürfen.
Spezifische Syntaxanalyse: Der Text nach # ist die Erläuterungsinformationen; Benutzer-Agent: Der Name des Suchroboters wird befolgt, und wenn es *ist, bezieht er sich im Allgemeinen auf alle Suchroboter. Unzulässige: Das Dateiverzeichnis dahinter darf nicht zugegriffen werden.
Im Folgenden werde ich einige spezifische Verwendungen von Robots.txt auflisten:
Ermöglichen Sie allen RoboterzugriffBenutzer-Agent: *
Nicht zulassen:
Oder Sie können eine leere Datei/Robots.txt -Datei erstellen
Alle Suchmaschinen sind verboten, auf einen Teil der Website zuzugreifenBenutzer-Agent: *
Nicht zulassen: /
Alle Suchmaschinen sind verboten, auf mehrere Teile der Website zuzugreifen (Verzeichnisse 01, 02, 03 im folgenden Beispiel).Benutzer-Agent: *
Nicht zulassen: /01 /
Nicht zulassen: /02 /
Nicht zulassen: /03 /
Deaktivieren Sie den Zugriff auf eine Suchmaschine (Badbot im folgenden Beispiel)Benutzer-Agent: Badbot
Nicht zulassen: /
Zugriff nur zu einer bestimmten Suchmaschine (Crawler im folgenden Beispiel)Benutzer-Agent: Crawler
Nicht zulassen:
Benutzer-Agent: *
Nicht zulassen: /
Darüber hinaus denke ich, dass es notwendig ist, eine Erweiterungserklärung abzugeben und einige Roboter -Meta einzuführen:
Roboter -Meta -Tags richten sich hauptsächlich auf bestimmte Seiten. Wie andere Meta -Tags (z. B. die verwendete Sprache, die Seitenbeschreibung, Schlüsselwörter usw.) wird das Roboter -Meta -Tag auch in der Seite <kopf> </head> platziert und wird speziell verwendet, um Suchmaschinen zu erzählen, wie Sie den Inhalt der Seite kriechen.
So schreiben Sie Roboter -Meta -Tags:
Es gibt keinen Unterschied zwischen dem oberen und unteren Fall im Roboter -Meta -Tag. Name = Roboter bedeutet alle Suchmaschinen und können als Name = Baiduspider für eine bestimmte Suchmaschine geschrieben werden. Der Inhaltsteil verfügt über vier Anweisungsoptionen: Index, noIndex, folgen und nofollow, getrennt durch Anweisungen.
Der Indexbefehl teilt dem Suchroboter an, die Seite zu greifen.
Der Befehl folgen zeigt an, dass der Suchroboter weiter entlang des Links auf der Seite kriechen kann.
Die Standardwerte des Roboter -Meta -Tags sind index und folgen, außer inktomi. Aus diesem Grund sind die Standardwerte Index und Nofollow.
Auf diese Weise gibt es vier Kombinationen:
< Meta name = Robots content = index, folgen >
< Meta name = Robots content = noIndex, folge >
< Meta name = Robots content = index, nofollow >
< Meta name = Robots content = noIndex, nofollow >
In
< meta name = roboots content = index, folge > kann als < meta name = Robots content = alle > geschrieben werden;
< meta name = roboots content = noIndex, nofollow > kann als < meta name = Robots content = Keine > geschrieben werden.
Derzeit scheint es, dass die meisten Suchmaschinenroboter die Regeln von Robots.txt einhalten, und für das Meta -Tag der Roboter gibt es derzeit nicht viele Unterstützung, aber sie nehmen allmählich zu. Beispielsweise unterstützt die berühmte Suchmaschine Google es voll und ganz und Google hat auch ein Befehlsarchiv hinzugefügt, um zu beschränken, ob Google Webseiten -Snapshots behält. Zum Beispiel:
< meta name = googleBot content = index, folgen, noarchive >