
Поисковая система - это программная система, которая предназначена для выполнения веб -поисков. Они ищут всемирную паутину систематическим способом для конкретной информации, указанной в текстовом запросе веб -поиска. Результаты поиска, как правило, представлены в линейке результатов, часто называемых страницами результатов поисковой системы (SERP), информация может быть сочетанием ссылок на веб -страницы, изображения, видео, инфографику, статьи, исследовательские работы и другие типы файлов. Некоторые поисковые системы также допускают данные в базах данных или открытых каталогах. В отличие от веб-каталогов, которые поддерживаются только человеческими редакторами, поисковые системы также сохраняют информацию в реальном времени, используя алгоритм на веб-гусенике. Интернет -контент, который не способен искать в веб -поисковой системе, обычно описывается как глубокая сеть.
Поисковая система поддерживает следующие процессы в реальном времени:
Поисковые системы веб -поиска получают свою информацию за счет веб -ползания с сайта на сайт. «Паук» проверяет на стандартный файл robots.txt, адресованный ему. Файл robots.txt содержит директивы для поисковых пауков, рассказывающих, какие страницы ползти и какие страницы не ползть. После проверки на robots.txt и либо найти его, либо нет, паук отправляет определенную информацию для индексации в зависимости от многих факторов, таких как названия, содержание страницы, JavaScript, каскадные листы в стиле (CSS), заголовки или его метаданные в Meta Tags HTML. После того, как определенное количество страниц ползал, индексированное количество данных или время, проведенное на веб -сайте, паук перестает ползать и двигаться дальше. «[N] o Веб -гусеницы могут на самом деле ползать по всей достижимой сети. Из -за бесконечных веб -сайтов, ловушек -пауков, спама и других потребностей реальной сети вместо этого применяют политику ползания, чтобы определить, когда ползание сайта должно считаться достаточным. Некоторые веб -сайты ползут исчерпывающими, в то время как другие разползли только частично».
Индексация означает ассоциацию слов и других определяемых токенов, найденных на веб-страницах с их доменными именами и полями на основе HTML. Ассоциации сделаны в общедоступной базе данных, доступной для веб -поисковых запросов. Запрос от пользователя может быть одним словом, несколькими словами или предложением. Индекс помогает найти информацию, касающуюся запроса как можно быстрее. Некоторые из методов индексации и кэширования являются коммерческими секретами, тогда как веб -полпы - это простой процесс посещения всех сайтов на систематической основе.
Между посещением паука кэшированная версия страницы (некоторые или все контент, необходимое для его рендеринга), хранящейся в рабочей памяти поисковой системы, быстро отправляется в запросчик. Если посещение запоздало, поисковая система может просто действовать как веб -прокси. В этом случае страница может отличаться от индексированных терминов поиска. Кэшированная страница содержит появление версии, слова которых ранее были проиндексированы, поэтому кэшированная версия страницы может быть полезна для веб -сайта, когда фактическая страница была потеряна, но эта проблема также считается мягкой формой Linkrot.
Как правило, когда пользователь входит в запрос в поисковую систему, это несколько ключевых слов. Индекс уже имеет имена сайтов, содержащих ключевые слова, и они мгновенно получены из индекса. Реальная обработка нагрузки заключается в создании веб -страниц, которые являются списком результатов поиска: каждая страница во всем списке должна быть взвешена в соответствии с информацией в индексах. Затем верхний элемент результата поиска требует поиска, реконструкции и разметки фрагментов, показывающих контекст подходящих ключевых слов. Это только часть обработки каждой страницы результатов поиска, которую требует веб-страница, и дальнейшие страницы (рядом с верхом) требуют большего от этой пост-обработки.
Помимо простых поисков ключевых слов, поисковые системы предлагают свои собственные операторы или параметры поиска, чтобы уточнить результаты поиска. Они предоставляют необходимые элементы управления для пользователя, занимающегося циклом обратной связи, пользователи создают путем фильтрации и взвешивания при уточнении результатов поиска, учитывая начальные страницы первых результатов поиска. Например, из 2007 года поисковая система Google.com позволила отфильтровать дату, нажав «Показать инструменты поиска» в самом левом столбце на первом странице результатов поиска, а затем выбрав нужный диапазон дат. Также возможно вес по дате, потому что на каждой странице есть время изменения. Большинство поисковых систем поддерживают использование логических операторов и или не помогают конечным пользователям уточнить поисковый запрос. Логические операторы предназначены для буквальных поисков, которые позволяют пользователю уточнить и расширять условия поиска. Двигатель ищет слова или фразы точно так же, как введено. Некоторые поисковые системы предоставляют расширенную функцию, называемую поиском близости, которая позволяет пользователям определять расстояние между ключевыми словами. Существует также поиск на основе концепции, где исследование включает в себя использование статистического анализа на страницах, содержащих слова или фразы, которые вы ищете.
Полезность поисковой системы зависит от актуальности набора результатов, которую он возвращает. Хотя могут быть миллионы веб -страниц, которые включают конкретное слово или фразу, некоторые страницы могут быть более актуальными, популярными или авторитетными, чем другие. Большинство поисковых систем используют методы для ранжирования результатов, чтобы сначала предоставить «лучшие» результаты. То, как поисковая система решает, какие страницы являются лучшими совпадениями, и в каком порядке следует показать результаты, варьируется от одного двигателя к другому. Методы также меняются со временем по мере изменения использования в Интернете и развиваются новые методы. Существует два основных типа поисковой системы, которые развивались: один из них представляет собой систему предопределенных и иерархически упорядоченных ключевых слов, которые люди широко запрограммировали. Другая - это система, которая генерирует «инвертированный индекс», анализируя тексты, которые он находится. Эта первая форма гораздо больше зависит от самого компьютера, чтобы выполнить большую часть работы.
Большинство веб -поисковых систем - это коммерческие предприятия, поддерживаемые доходами от рекламы, и, таким образом, некоторые из них позволяют рекламодателям иметь свои списки более высокими в результатах поиска за плату. Поисковые системы, которые не принимают деньги на результаты их поиска, зарабатывают деньги, используя рекламу, связанные с поиском, наряду с обычными результатами поисковой системы. Поисковые системы зарабатывают деньги каждый раз, когда кто -то нажимает на одну из этих объявлений.
Полем