没有广告,没有跟踪,没有利润
MWMBL是社区确定排名的非营利性开源搜索引擎。我们的目标是替代商业搜索引擎,例如Google和Bing。

我们有自己的指数由社区提供支持。目前,我们的指数比商用搜索引擎的指数小得多,其中约有5亿个独特的URL(更多统计数据)。目前,匹配商用发动机的质量还有很长的路要走,但是您可以通过加入我们来帮助改变这一点!我们的目标是在2024年底之前拥有10亿个独特的URL索引,到2025年底,到2026年底,到2025年底,我们应该与商业搜索引擎相当。
我们的主要社区是在矩阵上,但我们还有一台与不开发的讨论的Discord服务器。
社区负责爬网(见下文)和策划搜索结果。我们友好而热情。加入我们!
所有文档都在https://book.mwmbl.org上。
爬网分布在社区中,而索引集中在主服务器上。
如果您具有备用的计算机电源和带宽,那么最好的方法是通过尽可能多的线程运行我们的命令行爬车手。
如果您有Firefox,则可以通过安装我们的扩展名来提供帮助。这将在后台爬网。它不使用或访问您的任何个人数据。取而代之的是,它抓取了从我们的中央服务器发送的一组URL。提取每个页面的摘要后,它将这些批量批处理并将数据发送到中央服务器以存储和索引。
AD资助的搜索引擎的动机与提供最佳的用户体验不符。这些网站是针对广告收入进行了优化的,用户体验将获得第二名。这意味着页面上装有广告,这些广告通常与搜索结果没有明确区分。此外,Eitland on Hacker News评论:
考虑到这一点似乎是合乎逻辑的,对于搜索引擎而言,实际上讲的搜索引擎对用户和MattGB指出的是 - (在某种程度上)在索引上也是如此 - 首先提供正确的答案就是愚蠢的:如果他们可以在他们的搜索结果和技术博客之间与广告之间的搜索结果和技术博客之间的发展,则是嵌入一个,两次或五次的额外的五倍或五倍的五倍或五倍或五倍或五倍的广告构想。
近年来,替代搜索引擎的空间迅速扩大。这是一些对我感兴趣的非常不完整的列表:
其中,Yacy是最接近非营利搜索引擎的想法的精神。该索引分布在对等网络上。不幸的是,这个设计决策减慢了搜索结果的提取。
Marginalia搜索很棒,但是我们的目标是不同的:我们的目标是替代商业搜索引擎,而Marginalia的目的是提供不同类型的搜索。
我遇到的所有其他搜索引擎都是营利性的。如果我错过了一个,请告诉我!
要成为一个好的搜索引擎,我们需要存储许多物品,但是运行引擎的成本至少与存储的物品数量成正比。因此,我们的主要考虑是降低存储的每项成本。
该设计建立在这样的观察结果上:大多数项目对一小部分术语进行排名。在此的极端版本中,每个项目对单个项进行排名,通常的倒置索引设计非常低效,因为我们必须至少将每个术语存储两次:一次:一次在索引中,一次在项目数据本身中。
我们的设计是一张巨大的哈希地图。我们有一个由固定数字n页面组成的单个商店。每个页面的大小为固定的大小(当前4096个字节以匹配内存的页面),并由一个项目列表组成。给定一个术语,我们希望将项目进行排名,我们计算术语的哈希,一个值在0和n -1之间。然后将项目存储在相应的页面中。
要检索页面,我们只需计算用户查询中的术语的哈希,并加载相应的页面,将项目过滤到包含术语的内容并对项目进行排名。由于每个页面都很小,因此可以很快完成。
因为我们压缩项目列表,所以我们可以排名超过一个项,并维护小于倒置索引设计的索引。至少这就是理论。这个想法尚未大规模测试。
有多种帮助:
如果您想以任何这些或其他方式提供帮助,谢谢!请加入我们的矩阵聊天服务器或通过电子邮件发送主要作者(电子邮件地址在GIT提交历史记录中)。
为了在本地尝试该服务,请参阅MWMBL书中的部分。
注意:不建议使用此方法,因为它更多地参与其中,并且您的索引将不包含任何数据,除非您设置了爬网将爬网爬到服务器。您将需要设置自己的Backblaze或S3等效存储,或者可以访问生产键,我们可能不会给您。
遵循部署说明
喜欢“喃喃自语”。我生活在威尔士语中的“ MWMBWLS”中。但是,预期的含义是“喃喃自语”,例如“不要搜索,只是mwmbl!”!