Нет рекламы, нет отслеживания, нет прибыли
MWMBL-это некоммерческая поисковая система с открытым исходным кодом, где сообщество определяет рейтинг. Мы стремимся стать заменой коммерческих поисковых систем, таких как Google и Bing.

У нас есть свой собственный индекс, основанный на нашем сообществе. Наш индекс в настоящее время намного меньше, чем у коммерческих поисковых систем, с около 500 миллионов уникальных URL (больше статистики). Качество далека от совпадения коммерческих двигателей на данный момент, но вы можете помочь изменить это, присоединившись к нам! Мы стремимся иметь 1 миллиард уникальных URL -адресов к концу 2024 года, 10 миллиардов к концу 2025 года и 100 миллиардов к концу 2026 года, по которой мы должны быть сопоставимы с коммерческими поисковыми системами.
Наше главное сообщество находится на матрице, но у нас также есть сервер дискордов для обсуждения без развития.
Сообщество отвечает за ползание в Интернете (см. Ниже) и курирование результатов поиска. Мы дружелюбны и гостеприимны. Присоединяйтесь к нам!
Вся документация находится на https://book.mwmbl.org.
Ползание распределяется по всему сообществу, а индексация централизована на основном сервере.
Если у вас есть запасная компьютерная мощность и пропускная способность, лучший способ, которым вы можете помочь, - это запустить нашу командную строку с таким количеством потоков, сколько вы можете сэкономить.
Если у вас есть Firefox, вы можете помочь, установив наше расширение. Это заполнит Интернет в фоновом режиме. Он не использует и не получается ни одного из ваших личных данных. Вместо этого он ползет набор URL -адресов, отправленных с нашего центрального сервера. После извлечения сводки каждой страницы, он собирает их и отправляет данные на центральный сервер для хранения и индексации.
Мотивы поисковых систем, финансируемых рекламой, противоречат предоставлению оптимального пользовательского опыта. Эти сайты оптимизированы для дохода от рекламы, а пользовательский опыт занимает второе место. Это означает, что страницы загружаются рекламой, которые часто не четко отличаются от результатов поиска. Кроме того, Эйтленд на хакерских новостях Комментарии:
Думая об этом, кажется логичным, что для поисковой системы, которая практически говоря, имеет монополию как на пользователей, так и, как указывает Mattgb - [для некоторой] степени также при индексации - служить правильному ответу сначала просто глупо: если они могут держать меня в результате их поиска и техническими блогами с их объявлением, встроенными один, два или пять раз, что означает один, два или пять раз больше.
Пространство альтернативных поисковых систем быстро расширилось в последние годы. Вот очень неполный список некоторых, которые меня интересовали:
Из них Yacy является самым близким в духе к идее некоммерческой поисковой системы. Индекс распределяется по одноранговой сети. К сожалению, это дизайнерское решение замедляет получение результатов поиска.
Поиск Marginalia - это фантастический, но наши цели разные: мы стремимся стать заменой коммерческих поисковых систем, тогда как Marginalia стремится обеспечить другой тип поиска.
Все остальные поисковые системы, с которыми я сталкивался, являются коммерческими. Пожалуйста, дайте мне знать, если я пропустил его!
Чтобы быть хорошей поисковой системой, нам нужно хранить много предметов, но стоимость запуска двигателя, по крайней мере, пропорциональна количеству хранимых предметов. Таким образом, наше основное соображение заключается в снижении стоимости за сохраненный элемент.
Дизайн основан на наблюдении, что большинство предметов ранжируют для небольшого набора терминов. В крайней версии этого, где каждый элемент занимает ранжирование за один термин, обычная инвертированная индексная конструкция является чрезвычайно неэффективной, поскольку нам приходится хранить каждый термин, по крайней мере, дважды: один раз в индексе и один раз в самих данных.
Наш дизайн - гигантская хэш -карта. У нас есть один магазин, состоящий из фиксированного числа n страниц. Каждая страница имеет фиксированный размер (в настоящее время 4096 байтов в соответствии с страницей памяти) и состоит из сжатого списка элементов. Учитывая термин, по которому мы хотим, чтобы элемент ранжился, мы рассчитываем хэш термина, значение от 0 до N - 1. Затем элемент хранится на соответствующей странице.
Чтобы получить страницы, мы просто рассчитываем хэш терминов в пользовательском запросе и загружаем соответствующие страницы, отфильтровали элементы в те, которые содержат термин и ранжируют элементы. Поскольку каждая страница маленькая, это можно сделать очень быстро.
Поскольку мы сжимаем список элементов, мы можем ранжировать более одного термина и поддерживать индекс, меньший, чем инвертированный индексный дизайн. По крайней мере, это теория. Эта идея еще предстоит проверить в больших масштабах.
Есть несколько способов помочь:
Если вы хотите помочь любым из этих или других способов, спасибо! Пожалуйста, присоединяйтесь к нашему серверу Matrix Chat или по электронной почте главному автору (адрес электронной почты находится в истории Commit).
Чтобы попробовать услугу на локальном уровне, см. Раздел в книге MWMBL.
ПРИМЕЧАНИЕ. Этот метод не рекомендуется, поскольку он более вовлечен, и ваш индекс не будет включать никаких данных, если вы не настроите гусеница для ползания на ваш сервер. Вам нужно будет настроить собственное бэк -блюзовое или эквивалентное хранилище S3 или иметь доступ к производственным ключам, которые мы, вероятно, не дадим вам.
Следуйте инструкциям по развертыванию
Как "бормотание". Я живу в Mumbles, который пишется «MWMBWLS» на валлийском языке. Но предполагаемое значение - «бормотать», как в «Не ищи, просто mwmbl!»