
검색 엔진은 웹 검색을 수행하도록 설계된 소프트웨어 시스템입니다. 그들은 텍스트 웹 검색 쿼리에 지정된 특정 정보를 체계적인 방식으로 월드 와이드 웹을 검색합니다. 검색 결과는 일반적으로 검색 엔진 결과 페이지 (SERP)라고하는 결과 라인으로 표시됩니다. 정보는 웹 페이지, 이미지, 비디오, 인포 그래픽, 기사, 연구 논문 및 기타 유형의 파일에 대한 링크가 혼합 될 수 있습니다. 일부 검색 엔진은 또한 데이터베이스 또는 열린 디렉토리에서 사용 가능한 데이터를 채굴합니다. 인간 편집자 만 유지하는 웹 디렉토리와 달리 검색 엔진은 웹 크롤러에서 알고리즘을 실행하여 실시간 정보를 유지합니다. 웹 검색 엔진에서 검색 할 수없는 인터넷 콘텐츠는 일반적으로 딥 웹으로 설명됩니다.
검색 엔진은 다음 프로세스를 거의 실시간으로 유지합니다.
웹 검색 엔진은 웹 크롤링으로 사이트마다 정보를 얻습니다. "스파이더"는 표준 파일 이름 robots.txt를 확인합니다. robots.txt 파일에는 검색 거미에 대한 지침이 포함되어 있으며 크롤링 할 페이지와 크롤링이 아닌 페이지를 알려줍니다. Robots.txt를 확인하고 찾거나 찾지 못한 후 Spider는 제목, 페이지 컨텐츠, JavaScript, CSS (Cascading Style Sheets), 헤딩 또는 HTML 메타 태그의 메타 데이터와 같은 많은 요소에 따라 특정 정보를 다시 인덱싱합니다. 일정 수의 페이지가 크롤링 된 후, 데이터의 양 또는 웹 사이트에 소비 된 시간이 지나면 거미는 크롤링을 중지하고 이동합니다. "[n] o 웹 크롤러는 실제로 도달 가능한 전체 웹을 크롤링 할 수 있습니다. 무한 웹 사이트, 스파이더 트랩, 스팸 및 실제 웹의 다른 긴급 상황으로 인해 크롤러는 크롤링 정책을 적용하여 크롤링 정책을 적용하여 사이트의 크롤링이 충분한 것으로 간주되는시기를 결정합니다. 일부 웹 사이트는 철저하게 크롤링되며 다른 웹 사이트는 파트너로 만 크롤링됩니다".
인덱싱은 웹 페이지에서 발견 된 단어 및 기타 정의 가능한 토큰을 도메인 이름 및 HTML 기반 필드와 연결하는 것을 의미합니다. 협회는 웹 검색 쿼리에 사용할 수있는 공개 데이터베이스로 만들어졌습니다. 사용자의 쿼리는 단일 단어, 여러 단어 또는 문장 일 수 있습니다. 인덱스는 가능한 빨리 쿼리와 관련된 정보를 찾는 데 도움이됩니다. 인덱싱 및 캐싱 기술 중 일부는 영업 비밀이지만 웹 크롤링은 모든 사이트를 체계적으로 방문하는 간단한 프로세스입니다.
스파이더가 방문하는 사이에 검색 엔진 작업 메모리에 저장된 캐시 버전의 페이지 (렌더링하는 데 필요한 일부 또는 모든 콘텐츠)가 탐구자에게 빠르게 전송됩니다. 방문이 기한이 지나면 검색 엔진은 대신 웹 프록시 역할을 할 수 있습니다. 이 경우 페이지가 색인화 된 검색어와 다를 수 있습니다. 캐시 된 페이지는 이전에 단어가 인덱싱 된 버전의 모양을 보유하므로 캐시 된 페이지의 캐시 버전은 실제 페이지를 잃어 버렸을 때 웹 사이트에 유용 할 수 있지만이 문제는 또한 가벼운 형태의 LinkRot으로 간주됩니다.
일반적으로 사용자가 검색 엔진에 쿼리를 입력하면 몇 가지 키워드입니다. 인덱스에는 이미 키워드가 포함 된 사이트 이름이 있으며, 이들은 인덱스에서 즉시 얻습니다. 실제 처리로드는 검색 결과 목록 인 웹 페이지를 생성하는 데 있습니다. 전체 목록의 모든 페이지는 인덱스의 정보에 따라 가중치가 가중치가 있어야합니다. 그런 다음 최상위 검색 결과 항목에는 일치하는 키워드의 컨텍스트를 보여주는 스 니펫의 조회, 재구성 및 마크 업이 필요합니다. 이들은 웹 페이지가 요구하는 각 검색 결과 처리의 일부일 뿐이며 추가 페이지 (상단 옆)에는 더 많은 이후 처리가 필요합니다.
간단한 키워드 조회 외에도 검색 엔진은 자체 GUI- 또는 명령 중심 연산자 및 검색 매개 변수를 제공하여 검색 결과를 개선합니다. 이는 첫 번째 검색 결과의 초기 페이지를 고려할 때 검색 결과를 수정하면서 필터링 및 가중치를 사용하여 생성 한 피드백 루프 사용자가 사용하는 사용자에게 필요한 컨트롤을 제공합니다. 예를 들어, 2007 년부터 Google.com 검색 엔진은 초기 검색 결과 페이지의 가장 왼쪽 열에서 "검색 도구 표시"를 클릭 한 다음 원하는 날짜 범위를 선택하여 날짜별로 필터링 할 수있었습니다. 각 페이지에는 수정 시간이 있기 때문에 날짜별로 가중치가있을 수도 있습니다. 대부분의 검색 엔진은 부울 운영자의 사용을 지원하며 최종 사용자가 검색 쿼리를 개선 할 수 있도록 도와주지 않습니다. 부울 연산자는 사용자가 검색어를 개선하고 확장 할 수있는 문자 검색을위한 것입니다. 엔진은 입력 한대로 정확히 단어 나 문구를 찾습니다. 일부 검색 엔진은 근접 검색이라는 고급 기능을 제공하여 사용자가 키워드 간 거리를 정의 할 수 있습니다. 검색하는 단어 나 문구가 포함 된 페이지에 통계 분석을 사용하는 연구가 포함되는 개념 기반 검색도 있습니다.
검색 엔진의 유용성은 결과 세트의 관련성에 따라 다릅니다. 특정 단어 나 문구가 포함 된 수백만 개의 웹 페이지가있을 수 있지만 일부 페이지는 다른 페이지보다 관련성이 높거나 인기가 높거나 권위가있을 수 있습니다. 대부분의 검색 엔진은 "최고의"결과를 먼저 제공하기 위해 결과를 평가하는 방법을 사용합니다. 검색 엔진이 어떤 페이지를 가장 잘 일치하는지 결정하는 방법과 결과가 표시되어야하는 순서는 엔진마다 크게 다릅니다. 인터넷 사용이 변경되고 새로운 기술이 발전함에 따라이 방법은 시간이 지남에 따라 변경됩니다. 진화 한 두 가지 주요 유형의 검색 엔진이 있습니다. 하나는 인간이 광범위하게 프로그래밍 한 사전 정의되고 계층 적으로 주문 된 키워드 시스템입니다. 다른 하나는 찾는 텍스트를 분석하여 "반전 인덱스"를 생성하는 시스템입니다. 이 첫 번째 형태는 컴퓨터 자체에 훨씬 더 크게 의존하여 대부분의 작업을 수행합니다.
대부분의 웹 검색 엔진은 광고 수익으로 지원되는 상업용 벤처이므로 일부 광고주는 광고주가 수수료로 검색 결과에서 목록 순위를 높일 수 있습니다. 검색 결과에 돈을받지 않는 검색 엔진은 일반 검색 엔진 결과와 함께 검색 관련 광고를 실행하여 돈을 만듭니다. 검색 엔진은 누군가 가이 광고 중 하나를 클릭 할 때마다 돈을 만듭니다.
.