沒有廣告,沒有跟踪,沒有利潤
MWMBL是社區確定排名的非營利性開源搜索引擎。我們的目標是替代商業搜索引擎,例如Google和Bing。

我們有自己的指數由社區提供支持。目前,我們的指數比商用搜索引擎的指數小得多,其中約有5億個獨特的URL(更多統計數據)。目前,匹配商用發動機的質量還有很長的路要走,但是您可以通過加入我們來幫助改變這一點!我們的目標是在2024年底之前擁有10億個獨特的URL索引,到2025年底,到2026年底,到2025年底,我們應該與商業搜索引擎相當。
我們的主要社區是在矩陣上,但我們還有一台與不開發的討論的Discord服務器。
社區負責爬網(見下文)和策劃搜索結果。我們友好而熱情。加入我們!
所有文檔都在https://book.mwmbl.org上。
爬網分佈在社區中,而索引集中在主服務器上。
如果您具有備用的計算機電源和帶寬,那麼最好的方法是通過盡可能多的線程運行我們的命令行爬車手。
如果您有Firefox,則可以通過安裝我們的擴展名來提供幫助。這將在後台爬網。它不使用或訪問您的任何個人數據。取而代之的是,它抓取了從我們的中央服務器發送的一組URL。提取每個頁面的摘要後,它將這些批量批處理並將數據發送到中央服務器以存儲和索引。
AD資助的搜索引擎的動機與提供最佳的用戶體驗不符。這些網站是針對廣告收入進行了優化的,用戶體驗將獲得第二名。這意味著頁面上裝有廣告,這些廣告通常與搜索結果沒有明確區分。此外,Eitland on Hacker News評論:
考慮到這一點似乎是合乎邏輯的,對於搜索引擎而言,實際上講的搜索引擎對用戶和MattGB指出的是 - (在某種程度上)在索引上也是如此 - 首先提供正確的答案就是愚蠢的:如果他們可以在他們的搜索結果和技術博客之間與廣告之間的搜索結果和技術博客之間的發展,則是嵌入一個,兩次或五次的額外的五倍或五倍的五倍或五倍或五倍或五倍的廣告構想。
近年來,替代搜索引擎的空間迅速擴大。這是一些對我感興趣的非常不完整的列表:
其中,Yacy是最接近非營利搜索引擎的想法的精神。該索引分佈在對等網絡上。不幸的是,這個設計決策減慢了搜索結果的提取。
Marginalia搜索很棒,但是我們的目標是不同的:我們的目標是替代商業搜索引擎,而Marginalia的目的是提供不同類型的搜索。
我遇到的所有其他搜索引擎都是營利性的。如果我錯過了一個,請告訴我!
要成為一個好的搜索引擎,我們需要存儲許多物品,但是運行引擎的成本至少與存儲的物品數量成正比。因此,我們的主要考慮是降低存儲的每項成本。
該設計建立在這樣的觀察結果上:大多數項目對一小部分術語進行排名。在此的極端版本中,每個項目對單個項進行排名,通常的倒置索引設計非常低效,因為我們必須至少將每個術語存儲兩次:一次:一次在索引中,一次在項目數據本身中。
我們的設計是一張巨大的哈希地圖。我們有一個由固定數字n頁面組成的單個商店。每個頁面的大小為固定的大小(當前4096個字節以匹配內存的頁面),並由一個項目列表組成。給定一個術語,我們希望將項目進行排名,我們計算術語的哈希,一個值在0和n -1之間。然後將項目存儲在相應的頁面中。
要檢索頁面,我們只需計算用戶查詢中的術語的哈希,並加載相應的頁面,將項目過濾到包含術語的內容並對項目進行排名。由於每個頁面都很小,因此可以很快完成。
因為我們壓縮項目列表,所以我們可以排名超過一個項,並維護小於倒置索引設計的索引。至少這就是理論。這個想法尚未大規模測試。
有多種幫助:
如果您想以任何這些或其他方式提供幫助,謝謝!請加入我們的矩陣聊天服務器或通過電子郵件發送主要作者(電子郵件地址在GIT提交歷史記錄中)。
為了在本地嘗試該服務,請參閱MWMBL書中的部分。
注意:不建議使用此方法,因為它更多地參與其中,並且您的索引將不包含任何數據,除非您設置了爬網將爬網爬到服務器。您將需要設置自己的Backblaze或S3等效存儲,或者可以訪問生產鍵,我們可能不會給您。
遵循部署說明
喜歡“喃喃自語”。我生活在威爾士語中的“ MWMBWLS”中。但是,預期的含義是“喃喃自語”,例如“不要搜索,只是mwmbl!”!