mwmbl Download mwmbl MWMBL Source Code Download

mwmbl

Anderer Quellcode

1.0.0

Herunterladen

MWMBL - Die Open Source -Web -Suchmaschine

Keine Anzeigen, keine Verfolgung, kein Gewinn

MWMBL ist eine gemeinnützige Open-Source-Suchmaschine, in der die Community die Ranglisten bestimmt. Wir wollen ein Ersatz für kommerzielle Suchmaschinen wie Google und Bing sein.

MWMBL

Wir haben unseren eigenen Index, der von unserer Community betrieben wird. Unser Index ist derzeit viel kleiner als die von kommerziellen Suchmaschinen mit rund 500 Millionen einzigartigen URLs (mehr Statistiken). Die Qualität ist ein langer Weg, wenn es darum geht, die kommerziellen Motoren im Moment zu entsprechen, aber Sie können dazu beitragen, dies zu ändern, indem Sie sich uns anschließen! Wir wollen bis Ende 2024, 10 Milliarden bis Ende 2025 und 100 Milliarden bis Ende 2026, 1 Milliarde einzigartige URLs indexiert, mit den kommerziellen Suchmaschinen vergleichbar sein.

Gemeinschaft

Unsere Hauptgemeinschaft befindet sich auf Matrix, aber wir haben auch einen Discord-Server für nicht entwicklungsbezogene Diskussionen.

Die Community ist dafür verantwortlich, das Web zu kriechen (siehe unten) und die Kuratierung von Suchergebnissen. Wir sind freundlich und einladend. Begleiten Sie uns!

Dokumentation

Alle Dokumentationen finden Sie unter https://book.mwmbl.org.

Krabbeln

Crawling wird in der Community verteilt, während die Indexierung auf dem Hauptserver zentralisiert ist.

Wenn Sie Ersatz -Computer -Power und Bandbreite haben, können Sie am besten helfen, indem Sie unseren Befehlszeilen -Crawler mit so vielen Threads ausführen, wie Sie ersparen können.

Wenn Sie Firefox haben, können Sie durch die Installation unserer Erweiterung helfen. Dadurch kriecht das Web im Hintergrund. Es verwendet oder greift auf keine Ihrer persönlichen Daten zu. Stattdessen kriecht es eine Reihe von URLs, die von unserem zentralen Server gesendet werden. Nach dem Extrahieren einer Zusammenfassung jeder Seite stapelt sie diese und sendet die Daten an den zentralen Server, das gespeichert und indiziert werden soll.

Warum eine gemeinnützige Suchmaschine?

Die Motive von Ad-finanzierten Suchmaschinen sind im Widerspruch zu einer optimalen Benutzererfahrung. Diese Websites sind für Anzeigeneinnahmen optimiert, wobei die Benutzererfahrung den zweiten Platz belegt. Dies bedeutet, dass Seiten mit Anzeigen geladen werden, die oft nicht klar von den Suchergebnissen unterschieden werden. Auch Eitland über Hacker News Kommentare:

Wenn man darüber nachdenkt, erscheint es logisch, dass für eine Suchmaschine, die praktisch auch Monopoly auf den Benutzern hat, und wie Mattgb betont - [bis zu einem gewissen] Grad auch zum Indexieren -, wenn sie die richtige Antwort zuerst dienen: Wenn sie mich mit ihren Suchergebnissen und technischen Blogs mit ihren Anzeigen eingebettet halten können, sind ein- oder fünfmal zusätzliches, zwei oder fünfmal mehr.

Aber was ist mit ...?

Der Raum alternativer Suchmaschinen hat in den letzten Jahren rasch erweitert. Hier ist eine sehr unvollständige Liste einiger, die mich interessiert haben:

Search.Marginalia.nu - Eine Suchmaschine, die textbezogene Websites bevorzugt
Searxng - eine Open -Source -Meta -Suchmaschine
YACY - Eine Open -Source -Verteilte Suchmaschine
Strakter - eine private Suchmaschine von Open Source, private Suchmaschine mit Schwerpunkt auf Privatsphäre und Anpassbarkeit
Mutig
Duckduckgo
Kagi

Von diesen ist Yacy im Geist der Idee einer gemeinnützigen Suchmaschine am nächsten. Der Index wird über ein Peer-to-Peer-Netzwerk verteilt. Leider verlangsamt diese Entwurfsentscheidung das Abnehmen von Suchergebnissen.

Die Marginalia -Suche ist fantastisch, aber unsere Ziele sind unterschiedlich: Wir wollen ein Ersatz für kommerzielle Suchmaschinen sein, während Marginalia eine andere Art der Suche bereitstellen will.

Alle anderen Suchmaschinen, auf die ich gestoßen bin, sind gewinnorientiert. Bitte lassen Sie mich wissen, ob ich einen verpasst habe!

Entwerfen für gemeinnützige Organisationen

Um eine gute Suchmaschine zu sein, müssen wir viele Artikel speichern, aber die Kosten für den Betrieb des Motors sind zumindest proportional zur Anzahl der gespeicherten Artikel. Unsere Hauptüberlegung besteht darin, die Kosten pro gespeicherten Gegenstand zu senken.

Das Design basiert auf der Beobachtung, dass die meisten Elemente für eine kleine Reihe von Begriffen rangieren. In der extremen Version davon ist das übliche invertierte Indexdesign für jeden Element für einen einzelnen Begriff stark ineffizient, da wir jeden Begriff mindestens zweimal speichern müssen: einmal im Index und einmal in den Elementdaten selbst.

Unser Design ist eine riesige Hash -Karte. Wir haben einen einzigen Laden, der aus einer festen Nummer n von Seiten besteht. Jede Seite hat eine feste Größe (derzeit 4096 Bytes, die einer Speicherseite entsprechen) und besteht aus einer komprimierten Liste von Elementen. Bei einem Begriff, für den wir einen Element rangieren möchten, berechnen wir einen Hash des Begriffs, ein Wert zwischen 0 und n - 1. Das Element wird dann auf der entsprechenden Seite gespeichert.

Um Seiten abzurufen, berechnen wir einfach den Hash der Begriffe in der Benutzerabfrage und laden die entsprechenden Seiten, filtern Sie die Elemente in diejenigen, die den Begriff enthalten, und bewerten Sie die Elemente. Da jede Seite klein ist, kann dies sehr schnell erfolgen.

Da wir die Liste der Elemente komprimieren, können wir mehr als einen einzelnen Term einstufen und einen Index beibehalten, der kleiner ist als das invertierte Indexdesign. Zumindest ist das die Theorie. Diese Idee muss noch in großem Maßstab getestet werden.

Wie man beiträgt

Es gibt mehrere Möglichkeiten, um zu helfen:

Helfen Sie uns, das Web zu kriechen
Spenden Sie etwas Geld für die Hostingkosten und die Unterstützung unserer Freiwilligen
Feedback/Vorschläge geben
Unterstützung bei der Entwicklung des Motors selbst

Wenn Sie auf irgendeiner oder anderer Weise helfen möchten, danke! Bitte schließen Sie sich unserem Matrix -Chat -Server an oder senden Sie eine E -Mail an den Hauptautor (E -Mail -Adresse finden Sie im GIT -Commit -Historie).

Entwicklung

Lokale Tests

Um den Dienst vor Ort auszuprobieren, sehen Sie den Abschnitt im MWMBL -Buch.

Mit dokku

HINWEIS: Diese Methode wird nicht empfohlen, da sie stärker beteiligt ist, und Ihr Index enthält keine Daten, es sei denn, Sie haben einen Crawler einrichten, um auf Ihren Server zu kriechen. Sie müssen Ihren eigenen Backblaze- oder S3 -Gleichwertigkeitspeicher einrichten oder Zugriff auf die Produktionsschlüssel haben, die wir Ihnen wahrscheinlich nicht geben werden.

Befolgen Sie die Bereitstellungsanweisungen

Häufig gestellte Frage

Wie spricht man "MWMBL" aus?

Wie "murmeln". Ich lebe in Mumbles, das "MWMBWLs" in Welshellart geschrieben ist. Aber die beabsichtigte Bedeutung ist "murmeln", wie in "Nicht durchsuchen, nur mwmbl!"

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-11
Größe 68.54MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

mwmbl

MWMBL - Die Open Source -Web -Suchmaschine

Gemeinschaft

Dokumentation

Krabbeln

Warum eine gemeinnützige Suchmaschine?

Aber was ist mit ...?

Entwerfen für gemeinnützige Organisationen

Wie man beiträgt

Entwicklung

Lokale Tests

Mit dokku

Häufig gestellte Frage

Wie spricht man "MWMBL" aus?

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express