Keine Anzeigen, keine Verfolgung, kein Gewinn
MWMBL ist eine gemeinnützige Open-Source-Suchmaschine, in der die Community die Ranglisten bestimmt. Wir wollen ein Ersatz für kommerzielle Suchmaschinen wie Google und Bing sein.

Wir haben unseren eigenen Index, der von unserer Community betrieben wird. Unser Index ist derzeit viel kleiner als die von kommerziellen Suchmaschinen mit rund 500 Millionen einzigartigen URLs (mehr Statistiken). Die Qualität ist ein langer Weg, wenn es darum geht, die kommerziellen Motoren im Moment zu entsprechen, aber Sie können dazu beitragen, dies zu ändern, indem Sie sich uns anschließen! Wir wollen bis Ende 2024, 10 Milliarden bis Ende 2025 und 100 Milliarden bis Ende 2026, 1 Milliarde einzigartige URLs indexiert, mit den kommerziellen Suchmaschinen vergleichbar sein.
Unsere Hauptgemeinschaft befindet sich auf Matrix, aber wir haben auch einen Discord-Server für nicht entwicklungsbezogene Diskussionen.
Die Community ist dafür verantwortlich, das Web zu kriechen (siehe unten) und die Kuratierung von Suchergebnissen. Wir sind freundlich und einladend. Begleiten Sie uns!
Alle Dokumentationen finden Sie unter https://book.mwmbl.org.
Crawling wird in der Community verteilt, während die Indexierung auf dem Hauptserver zentralisiert ist.
Wenn Sie Ersatz -Computer -Power und Bandbreite haben, können Sie am besten helfen, indem Sie unseren Befehlszeilen -Crawler mit so vielen Threads ausführen, wie Sie ersparen können.
Wenn Sie Firefox haben, können Sie durch die Installation unserer Erweiterung helfen. Dadurch kriecht das Web im Hintergrund. Es verwendet oder greift auf keine Ihrer persönlichen Daten zu. Stattdessen kriecht es eine Reihe von URLs, die von unserem zentralen Server gesendet werden. Nach dem Extrahieren einer Zusammenfassung jeder Seite stapelt sie diese und sendet die Daten an den zentralen Server, das gespeichert und indiziert werden soll.
Die Motive von Ad-finanzierten Suchmaschinen sind im Widerspruch zu einer optimalen Benutzererfahrung. Diese Websites sind für Anzeigeneinnahmen optimiert, wobei die Benutzererfahrung den zweiten Platz belegt. Dies bedeutet, dass Seiten mit Anzeigen geladen werden, die oft nicht klar von den Suchergebnissen unterschieden werden. Auch Eitland über Hacker News Kommentare:
Wenn man darüber nachdenkt, erscheint es logisch, dass für eine Suchmaschine, die praktisch auch Monopoly auf den Benutzern hat, und wie Mattgb betont - [bis zu einem gewissen] Grad auch zum Indexieren -, wenn sie die richtige Antwort zuerst dienen: Wenn sie mich mit ihren Suchergebnissen und technischen Blogs mit ihren Anzeigen eingebettet halten können, sind ein- oder fünfmal zusätzliches, zwei oder fünfmal mehr.
Der Raum alternativer Suchmaschinen hat in den letzten Jahren rasch erweitert. Hier ist eine sehr unvollständige Liste einiger, die mich interessiert haben:
Von diesen ist Yacy im Geist der Idee einer gemeinnützigen Suchmaschine am nächsten. Der Index wird über ein Peer-to-Peer-Netzwerk verteilt. Leider verlangsamt diese Entwurfsentscheidung das Abnehmen von Suchergebnissen.
Die Marginalia -Suche ist fantastisch, aber unsere Ziele sind unterschiedlich: Wir wollen ein Ersatz für kommerzielle Suchmaschinen sein, während Marginalia eine andere Art der Suche bereitstellen will.
Alle anderen Suchmaschinen, auf die ich gestoßen bin, sind gewinnorientiert. Bitte lassen Sie mich wissen, ob ich einen verpasst habe!
Um eine gute Suchmaschine zu sein, müssen wir viele Artikel speichern, aber die Kosten für den Betrieb des Motors sind zumindest proportional zur Anzahl der gespeicherten Artikel. Unsere Hauptüberlegung besteht darin, die Kosten pro gespeicherten Gegenstand zu senken.
Das Design basiert auf der Beobachtung, dass die meisten Elemente für eine kleine Reihe von Begriffen rangieren. In der extremen Version davon ist das übliche invertierte Indexdesign für jeden Element für einen einzelnen Begriff stark ineffizient, da wir jeden Begriff mindestens zweimal speichern müssen: einmal im Index und einmal in den Elementdaten selbst.
Unser Design ist eine riesige Hash -Karte. Wir haben einen einzigen Laden, der aus einer festen Nummer n von Seiten besteht. Jede Seite hat eine feste Größe (derzeit 4096 Bytes, die einer Speicherseite entsprechen) und besteht aus einer komprimierten Liste von Elementen. Bei einem Begriff, für den wir einen Element rangieren möchten, berechnen wir einen Hash des Begriffs, ein Wert zwischen 0 und n - 1. Das Element wird dann auf der entsprechenden Seite gespeichert.
Um Seiten abzurufen, berechnen wir einfach den Hash der Begriffe in der Benutzerabfrage und laden die entsprechenden Seiten, filtern Sie die Elemente in diejenigen, die den Begriff enthalten, und bewerten Sie die Elemente. Da jede Seite klein ist, kann dies sehr schnell erfolgen.
Da wir die Liste der Elemente komprimieren, können wir mehr als einen einzelnen Term einstufen und einen Index beibehalten, der kleiner ist als das invertierte Indexdesign. Zumindest ist das die Theorie. Diese Idee muss noch in großem Maßstab getestet werden.
Es gibt mehrere Möglichkeiten, um zu helfen:
Wenn Sie auf irgendeiner oder anderer Weise helfen möchten, danke! Bitte schließen Sie sich unserem Matrix -Chat -Server an oder senden Sie eine E -Mail an den Hauptautor (E -Mail -Adresse finden Sie im GIT -Commit -Historie).
Um den Dienst vor Ort auszuprobieren, sehen Sie den Abschnitt im MWMBL -Buch.
HINWEIS: Diese Methode wird nicht empfohlen, da sie stärker beteiligt ist, und Ihr Index enthält keine Daten, es sei denn, Sie haben einen Crawler einrichten, um auf Ihren Server zu kriechen. Sie müssen Ihren eigenen Backblaze- oder S3 -Gleichwertigkeitspeicher einrichten oder Zugriff auf die Produktionsschlüssel haben, die wir Ihnen wahrscheinlich nicht geben werden.
Befolgen Sie die Bereitstellungsanweisungen
Wie "murmeln". Ich lebe in Mumbles, das "MWMBWLs" in Welshellart geschrieben ist. Aber die beabsichtigte Bedeutung ist "murmeln", wie in "Nicht durchsuchen, nur mwmbl!"