
検索エンジンは、Web検索を実行するように設計されたソフトウェアシステムです。彼らは、テキストのWeb検索クエリで指定された特定の情報を体系的な方法でWorld Wide Webを検索します。検索結果は一般に、検索エンジンの結果ページ(SERP)と呼ばれる結果の行で表示されます。この情報は、Webページ、画像、ビデオ、インフォグラフィック、記事、研究論文、その他のタイプのファイルへのリンクを組み合わせたものである可能性があります。一部の検索エンジンは、データベースまたはオープンディレクトリで利用可能なデータも採掘しています。人間の編集者のみが維持するWebディレクトリとは異なり、検索エンジンは、Web Crawlerでアルゴリズムを実行することにより、リアルタイム情報も維持します。 Web検索エンジンで検索できないインターネットコンテンツは、一般にディープWebと呼ばれます。
検索エンジンは、次のプロセスをほぼリアルタイムで維持します。
Web検索エンジンは、サイトからサイトへのWebクロールで情報を取得します。 「Spider」は、標準のFilename robots.txtをチェックします。 robots.txtファイルには、検索スパイダーのディレクティブが含まれており、どのページをクロールするか、どのページをクロールしないかを伝えます。 robots.txtをチェックし、それを見つけたかどうかにかかわらず、Spiderは、タイトル、ページコンテンツ、JavaScript、Cascadingスタイルシート(CSS)、見出し、またはHTMLメタタグのメタデータなど、多くの要因に応じて特定の情報をインデックスに戻します。一定のページ数がrawった後、データの索引付けされたデータの量、またはウェブサイトに費やされた時間の後、クモはrawいを止めて移動します。 「[n] oウェブクローラーは、実際に到達可能なウェブ全体をクロールする可能性があります。無限のWebサイト、クモトラップ、スパム、および実際のWebのその他の緊急性により、クローラーはクロールポリシーを適用して、サイトのクロールを十分に考える必要があります。
インデックス作成とは、Webページにある単語やその他の定義可能なトークンをドメイン名とHTMLベースのフィールドに関連付けることを意味します。アソシエーションは公開データベースで作成され、Web検索クエリで利用可能になります。ユーザーからのクエリは、単語、複数の単語、または文です。インデックスは、できるだけ早くクエリに関連する情報を見つけるのに役立ちます。インデックス作成の手法のいくつかとキャッシュは企業秘密ですが、Webクロールは体系的にすべてのサイトにアクセスする簡単なプロセスです。
クモによる訪問の間、検索エンジンのワーキングメモリに保存されているページのキャッシュバージョン(レンダリングに必要なコンテンツの一部またはすべて)がすぐにInquirerに送信されます。訪問が遅れている場合、検索エンジンは代わりにWebプロキシとして機能するだけです。この場合、ページはインデックス付き検索用語とは異なる場合があります。キャッシュされたページには、単語が以前に索引付けされていたバージョンの外観が保持されているため、実際のページが失われたときにページのキャッシュバージョンはWebサイトに役立ちますが、この問題はlinkrotの軽度の形式と見なされます。
通常、ユーザーが検索エンジンにクエリを入力すると、いくつかのキーワードです。インデックスにはすでにキーワードを含むサイトの名前があり、これらはインデックスから即座に取得されます。実際の処理負荷は、検索結果リストであるWebページを生成することです。リスト全体のすべてのページは、インデックスの情報に従って重み付けする必要があります。次に、トップ検索結果項目には、一致したキーワードのコンテキストを示すスニペットのルックアップ、再構築、およびマークアップが必要です。これらは、Webページが必要とする各検索結果の処理の一部であり、さらにページ(上部の隣)がこのポスト処理をさらに必要とします。
シンプルなキーワード検索を超えて、検索エンジンは独自の指導またはコマンド駆動型のオペレーターと検索パラメーターを提供して、検索結果を改善します。これらは、最初の検索結果の最初のページを考慮して、検索結果を改良しながらフィルタリングと重み付けによって作成されるフィードバックループユーザーに関与するユーザーに必要なコントロールを提供します。たとえば、2007年から、Google.comの検索エンジンは、最初の検索結果ページの左端の列に「Show Search Tools」をクリックして、目的の日付範囲を選択することにより、日付までにフィルタリングできるようになりました。各ページには変更時間があるため、日付ごとに重量を重ねることもできます。ほとんどの検索エンジンは、ブールオペレーターの使用をサポートしており、エンドユーザーが検索クエリを改良するのに役立ちません。ブールオペレーターは、ユーザーが検索の条件を改良および拡張できるようにする文字通りの検索用です。エンジンは、入力されたとおりに単語やフレーズを探します。一部の検索エンジンは、近接検索と呼ばれる高度な機能を提供します。これにより、ユーザーはキーワード間の距離を定義できます。また、調査には、検索する単語やフレーズを含むページで統計分析を使用することが含まれるコンセプトベースの検索もあります。
検索エンジンの有用性は、返済する結果セットの関連性に依存します。特定の単語やフレーズを含む何百万ものWebページがあるかもしれませんが、一部のページは他のページよりも関連性があり、人気がある、または権威ある場合があります。ほとんどの検索エンジンは、結果をランク付けする方法を使用して、最初に「最高の」結果を提供します。検索エンジンがどのページを決定するかは、どのページが最高の一致であり、結果が表示されるべき順序は、エンジンによって大きく異なります。また、インターネットの使用が変化し、新しいテクニックが進化するにつれて、この方法は時間とともに変化します。進化した検索エンジンには、2つの主要なタイプの検索エンジンがあります。1つは、人間が広範囲にプログラムした事前定義および階層的に順序付けられたキーワードのシステムです。もう1つは、見つけるテキストを分析することにより「反転インデックス」を生成するシステムです。この最初のフォームは、作業の大部分を実行するために、コンピューター自体にもっと大きく依存しています。
ほとんどのWeb検索エンジンは、広告収益によってサポートされている商業ベンチャーであるため、広告主には検索結果の上位にランク付けされることができます。検索結果のためにお金を受け入れない検索エンジンは、通常の検索エンジンの結果と一緒に検索関連広告を実行することでお金を稼ぎます。検索エンジンは、誰かがこれらの広告のいずれかをクリックするたびにお金を稼ぎます。
。