ロボット ファイルは Web サイトとスパイダー プログラムの間の「紳士協定」です。ロボット ファイルは Web サイトのリソースを節約するだけでなく、スパイダーがより効果的に Web を巡回し、ランキングを向上させるのにも役立ちます。
1: Google ボットのみを許可します
Googlebot を除くすべてのクローラーをブロックしたい場合:
ユーザーエージェント:*
許可しない:/
Uer-agent: 許可されたスパイダー名
許可しない:
2:「/folder/」と「/folder」の違い
例えば:
ユーザーエージェント:*
許可しない:/フォルダ/
許可しない:/フォルダ
「Disallow:/folder/」は、ディレクトリがインターセプトされることを意味します。このディレクトリ内のすべてのファイルはクロールできませんが、folder.hlml はクロールできます。
「Disallow:/folder」: /folder/ にあるすべてのファイルとfolder.html をクロールできません。
3: 「*」は任意の文字に一致します
ユーザーエージェント:*
すべてのスパイダーをブロックすることを示します。擬似静的処理を実行すると、動的 Web ページと静的 Web ページが同時に存在することになり、これらの Web ページのコンテンツはまったく同じであり、ミラー ページとみなされるため、動的 Web ページをブロックする必要があります。 * 記号を使用すると、動的 Web ページをブロックできます。
ユーザーエージェント:*
許可しない:/?*?/
4: $matching URL の終わり
特定の文字列で終わる URL をインターセプトする場合は、たとえば、.asp で終わる URL をインターセプトする場合は、$ を使用できます。
ユーザーエージェント:*
許可しない:/*.asp$
また、比較的良好な Web サイトを開いてロボット ファイルがどのように記述されているかを確認し、必要に応じて対応する修正を加えることができます。ロボット ファイルを使用すると、スパイダーがクロールされるコンテンツにより多くの時間を費やす可能性があるため、ロボット ファイルを最適化する必要があります。
この記事は東陽高府からのものです: http://mygaofu.com転載する場合はリンクを明記してください。
編集長:ヤンヤン著者 パーソナルスペースを最適化するのが大好きです