Google による Web サイトのクローリング原理の簡単な分析

著者：Eve Cole 更新時間：2009-07-07 16:44:19

1.掴む

クロールとは、Googlebot が新しい Web ページを検出し、更新してその Web ページを Google インデックスに追加するプロセスです。

私たちは、Web サイト上の多数のページを取得 (または「クロール」) するために多数のコンピューターを使用しています。取得タスクを実行するプログラムは Googlebot (ロボットまたは情報収集ソフトウェアとも呼ばれます) と呼ばれます。 Googlebot はアルゴリズムを使用してクロールします。コンピュータープログラムは、どの Web サイトをクロールするか、どのくらいの頻度で、各サイトから何ページを取得するかを決定します。

Google のクロールプロセスは、Web ページ URL のリストに基づいています。このリストは、前のクロールプロセス中に形成され、Web マスターから提供されるサイトマップデータによって継続的に拡張されます。 Googlebot が各ウェブサイトにアクセスすると、各ページのリンクが検出され、クロールするページのリストに追加されます。新しいサイト、既存のサイトへの変更、無効なリンクはログに記録され、Google インデックスの更新に使用されます。

Google では、サイトをより頻繁にクロールするための支払いを認めていません。当社は、検索ビジネスと営利目的の AdWords サービスを区別しています。

2. インデックス作成

Googlebot は、クロールする各ウェブページを処理して、見つかったすべての単語と各ページ上のそれらの単語の位置を大きなインデックス付きリストにまとめます。さらに、TITLE タグや ALT 属性などの主要なコンテンツタグおよび属性内の情報も処理します。 Googlebot は多くの種類のコンテンツを処理できますが、すべてではありません。たとえば、特定のリッチメディアファイルや動的 Web ページのコンテンツを処理できません。

3. 結果を提供する

ユーザーがクエリを入力すると、当社のコンピュータはインデックスで一致するページを検索し、ユーザーの検索に最も関連すると思われる結果を返します。関連性は 200 以上の要素によって決定され、その 1 つは特定の Web ページの PageRank です。 PageRank は、他のページからのリンクに対してそのページがどの程度重要かを示す尺度です。簡単に言えば、サイト上のページを指す他のサイトからの個々のリンクがサイトの PageRank を構成します。すべてのリンクが同じ価値を持つわけではありません。Google は、検索結果に悪影響を及ぼす可能性のあるリンクスパムやその他の行為を指摘し、ユーザーエクスペリエンスを継続的に向上させることに取り組んでいます。提供するコンテンツの品質に基づいて割り当てられたリンクが最適なリンクです。

サイトが検索結果ページで上位にランクされるためには、Google がサイトを正しくクロールし、インデックスを作成していることを確認することが重要です。ウェブマスターガイドラインでは、一般的な問題を回避し、サイトのランキングを向上させるのに役立ついくつかのベストプラクティスを概説しています。

Google の関連検索、スペルの提案、および Google の提案機能は、関連用語、一般的なスペルミス、および一般的なクエリを表示することで、ユーザーの検索時間を節約できるように設計されています。 google.com の検索結果と同様に、これらの機能で使用されるキーワードは、Web クローラーと検索アルゴリズムによって自動的に生成されます。これらの提案は、ユーザーの時間を節約できると思われる場合にのみ表示されます。サイトが特定のキーワードで上位にランクされる場合、それはそのコンテンツがユーザーのクエリにより関連しているとアルゴリズムで判断されたためです。