
搜索引擎是旨在進行Web搜索的軟件系統。他們以系統的方式搜索萬維網,以在文本Web搜索查詢中指定的特定信息。搜索結果通常以一系列結果表示,通常稱為搜索引擎結果頁面(SERP),信息可能是指向網頁,圖像,視頻,信息圖表,文章,研究論文和其他類型文件的鏈接的混合。一些搜索引擎還挖掘了數據庫或打開目錄中可用的數據。與僅由人類編輯維護的Web目錄不同,搜索引擎還通過在Web爬網上運行算法來維護實時信息。無法通過網絡搜索引擎搜索的互聯網內容通常描述為深網。
搜索引擎幾乎實時維護以下過程:
Web搜索引擎通過網站爬行到網站的網絡獲取信息。 “蜘蛛”檢查標准文件名robots.txt,已解決。 robots.txt文件包含搜索蜘蛛的指令,告訴它要爬網以及哪些頁面不爬網。在檢查了robots.txt並找到或不找到它後,蜘蛛將某些信息發送回索引,具體取決於許多因素,例如標題,頁面內容,JavaScript,級聯樣式表(CSS),標題或其元數據在HTML Meta標籤中。在一定數量的頁面爬行,索引數量或在網站上花費的時間後,蜘蛛停止爬行並繼續前進。 “ [n] o網絡爬行者實際上可能會爬上整個可觸及的網絡。由於無限的網站,蜘蛛陷阱,垃圾郵件和真實網絡的其他緊急情況,爬行者會應用爬網策略來確定網站的爬網何時應充分爬行。有些網站被詳盡地爬行,而其他網站則被爬行,而僅部分爬行”。
索引意味著將網頁上的單詞和其他可定義的令牌關聯到其域名和基於HTML的字段。關聯是在公共數據庫中進行的,可用於Web搜索查詢。用戶的查詢可以是一個單詞,多個單詞或句子。該索引有助於盡快找到與查詢有關的信息。索引和緩存的一些技術是商業秘密,而網絡爬行是系統地訪問所有站點的直接過程。
在蜘蛛的訪問之間,該頁面的緩存版本(渲染所需的某些或所有內容)存儲在搜索引擎工作記憶中,很快將發送給詢問者。如果訪問逾期,則搜索引擎可以作為Web代理。在這種情況下,頁面可能與索引的搜索詞不同。緩存頁面具有以前索引單詞的版本的外觀,因此,當實際頁面丟失時,頁面的緩存版本對網站可能很有用,但是此問題也被認為是鏈接的溫和形式。
通常,當用戶將查詢輸入搜索引擎時,這是一些關鍵字。該索引已經具有包含關鍵字的站點的名稱,並且這些站點是從索引中立即獲得的。真正的處理負載是生成搜索結果列表的網頁:整個列表中的每個頁面都必鬚根據索引中的信息加權。然後,頂部搜索結果項目需要摘要的查找,重建和標記,以顯示匹配的關鍵字的上下文。這些只是處理每個搜索結果頁面所需的處理的一部分,而更多頁面(頂部旁邊)需要更多此後處理。
除了簡單的關鍵字查找之外,搜索引擎還提供了自己的GUI或命令驅動的操作員和搜索參數,以完善搜索結果。這些用戶為從第一個搜索結果的初始頁面進行過濾和加權時,為參與反饋循環用戶創建的反饋循環用戶創建的用戶提供了必要的控件。例如,從2007年開始,Google.com搜索引擎可以通過單擊初始搜索結果頁面的最左邊列中的“顯示搜索工具”來按日期過濾,然後選擇所需的日期範圍。也可以按日期進行權重,因為每個頁面都有一個修改時間。大多數搜索引擎都支持使用布爾運營商的使用,或者不幫助最終用戶完善搜索查詢。布爾運算符用於字面搜索,使用戶可以完善並擴展搜索條款。該引擎完全按照輸入的方式查找單詞或短語。一些搜索引擎提供了一個稱為接近搜索的高級功能,該功能允許用戶定義關鍵字之間的距離。還有基於概念的搜索研究涉及在包含您搜索的單詞或短語的頁面上使用統計分析。
搜索引擎的有用性取決於結果集的相關性。儘管可能有數百萬個網頁包括特定單詞或短語,但某些頁面可能比其他頁面更相關,受歡迎或權威。大多數搜索引擎採用方法來對結果進行排名,以提供“最佳”結果。搜索引擎如何決定哪些頁面是最佳匹配,以及結果應顯示的順序,從一個引擎到另一個引擎差異很大。隨著互聯網使用的變化和新技術的發展,這些方法也隨著時間的推移而變化。搜索引擎有兩種主要類型:一個是人類廣泛編程的預定義和分層關鍵字的系統。另一個是通過分析其定位的文本來生成“倒置索引”的系統。第一種形式更加依賴計算機本身來完成大部分工作。
大多數網絡搜索引擎是廣告收入支持的商業企業,因此其中一些允許廣告客戶的列表在搜索結果中的排名更高。通過運行與常規搜索引擎結果一起運行搜索相關的廣告來賺錢的搜索引擎可賺錢。每當有人點擊這些廣告之一時,搜索引擎都會賺錢。
。