robots.txtは、Webサイト管理者がロボットからアクセスしたくないWebサイトの一部を宣言したり、検索エンジンに指定されたコンテンツのみが含まれていることを指定できるプレーンテキストファイルです。 robots.txtの基本的な紹介
robots.txtは、Webサイト管理者がロボットからアクセスしたくないWebサイトの一部を宣言したり、検索エンジンに指定されたコンテンツのみが含まれていることを指定できるプレーンテキストファイルです。
検索ロボット(検索スパイダーと呼ばれるものもあります)がサイトにアクセスすると、最初にRobots.txtがサイトのルートディレクトリに存在するかどうかを確認します。それが存在する場合、検索ロボットは、ファイル内のコンテンツに従ってアクセスの範囲を決定します。ファイルが存在しない場合、検索ロボットはリンクに沿ってクロールします。
さらに、robots.txtはサイトのルートディレクトリに配置する必要があり、ファイル名はすべて小文字でなければなりません。
robots.txt文法の書き込みまず、robots.txtの例を見てみましょう。例:http://www.csswebs.org/robots.txt
上記の特定のアドレスにアクセスすることにより、robots.txtの特定のコンテンツを次のように確認できます。
#robots.txt http://www.csswebs.orgからのファイル
#すべてのロボットがドメインをクモにします
ユーザーエージェント: *
禁止:
上記のテキストは、すべての検索ロボットがwww.csswebs.orgサイトの下のすべてのファイルにアクセスできることを意味します。
特定の構文分析:#後のテキストは説明情報です。ユーザーエージェント:検索ロボットの名前が採用されています。禁止:背後にあるファイルディレクトリにアクセスすることはできません。
以下に、robots.txtの特定の使用法をリストします。
すべてのロボットアクセスを許可しますユーザーエージェント: *
禁止:
または、空のファイル/robots.txtファイルを作成できます
すべての検索エンジンは、ウェブサイトの任意の部分にアクセスすることを禁止されていますユーザーエージェント: *
禁止: /
すべての検索エンジンは、ウェブサイトのいくつかの部分にアクセスすることを禁止されています(次の例ではディレクトリ01、02、03)ユーザーエージェント: *
禁止: /01 /
禁止: /02 /
禁止: /03 /
検索エンジンへのアクセスを無効にする(次の例でバッドボット)ユーザーエージェント:バッドボット
禁止: /
特定の検索エンジンへのアクセスのみ(次の例ではクローラー)ユーザーエージェント:クローラー
禁止:
ユーザーエージェント: *
禁止: /
さらに、拡張機能の説明を提供し、いくつかのロボットメタを導入する必要があると思います。
ロボットメタタグは、主に特定のページを対象としています。他のメタタグ(使用する言語、ページの説明、キーワードなど)と同様に、ロボットメタタグもページの<head> </head>に配置され、検索エンジンにページのコンテンツをクロールする方法を指示するために特別に使用されます。
ロボットメタタグの書き方:
ロボットのメタタグには、上記と小文字の間に違いはありません。名前=ロボットはすべての検索エンジンを意味し、特定の検索エンジンの名前= baiduspiderとして記述できます。コンテンツの部分には、インデックス、noindex、フォロー、および指示によって区切られたnofollowの4つの命令オプションがあります。
インデックスコマンドは、検索ロボットにページを取得するように指示します。
次のコマンドは、検索ロボットがページ上のリンクに沿ってクロールを続けることができることを示しています。
ロボットメタタグのデフォルト値は、Inktomiを除き、インデックスとフォローです。そのため、デフォルト値はインデックスとnofollowです。
このようにして、4つの組み合わせがあります。
<メタ名=ロボットコンテンツ=インデックス、フォロー>
<メタ名=ロボットコンテンツ= noindex、フォロー>
<メタ名=ロボットコンテンツ= index、nofollow>
<メタ名=ロボットコンテンツ= noindex、nofollow>
で
<メタ名=ロボットコンテンツ=インデックス、フォロー>メタ名=ロボットコンテンツ= all>;として書くことができます。
<メタ名=ロボットコンテンツ= noindex、nofollow>メタ名=ロボットコンテンツ=なし
現在、ほとんどの検索エンジンロボットはRobots.txtのルールを順守しているようで、ロボットのメタタグについては、現在多くのサポートはありませんが、徐々に増加しています。たとえば、有名な検索エンジンがGoogleを完全にサポートしており、GoogleはGoogleがWebページのスナップショットを保持しているかどうかを制限するコマンドアーカイブも追加しています。例えば:
meta name = googlebot content = index、follow、noarchive>