Téléchargement mwmbl - Téléchargement du code source mwmbl

mwmbl

Autre code source

1.0.0

Télécharger

MWMBL - Le moteur de recherche Web open source

Pas d'annonces, pas de suivi, pas de profit

MWMBL est un moteur de recherche open source à but non lucratif où la communauté détermine le classement. Nous visons à remplacer les moteurs de recherche commerciaux tels que Google et Bing.

mwmbl

Nous avons notre propre index propulsé par notre communauté. Notre indice est actuellement beaucoup plus petit que ceux des moteurs de recherche commerciaux, avec environ 500 millions d'URL uniques (plus de statistiques). La qualité est loin de faire correspondre les moteurs commerciaux en ce moment, mais vous pouvez aider à changer cela en vous joignant à nous! Nous visons à avoir 1 milliard d'URL uniques indexées d'ici la fin de 2024, 10 milliards d'ici la fin de 2025 et 100 milliards d'ici la fin de 2026 à ce moment-là, nous devons être comparables aux moteurs de recherche commerciaux.

Communauté

Notre communauté principale est sur Matrix, mais nous avons également un serveur Discord pour une discussion liée au développement.

La communauté est chargée de ramper sur le Web (voir ci-dessous) et de conserver les résultats de recherche. Nous sommes sympathiques et accueillants. Rejoignez-nous!

Documentation

Toute la documentation est sur https://book.mwmbl.org.

Rampant

Le rampage est distribué dans la communauté, tandis que l'indexation est centralisée sur le serveur principal.

Si vous avez une alimentation informatique de rechange et une bande passante, la meilleure façon de vous aider est d'exécuter notre robot de commande avec autant de threads que vous pouvez épargner.

Si vous avez Firefox, vous pouvez vous aider en installant notre extension. Cela rampera sur le Web en arrière-plan. Il n'utilise ni n'accède à aucune de vos données personnelles. Au lieu de cela, il rampe un ensemble d'URL envoyés depuis notre serveur central. Après avoir extrait un résumé de chaque page, il les regorge et envoie les données au serveur central à stocker et à indexer.

Pourquoi un moteur de recherche à but non lucratif?

Les motifs des moteurs de recherche financés par la publicité sont en contradiction de fournir une expérience utilisateur optimale. Ces sites sont optimisés pour les revenus publicitaires, l'expérience utilisateur prenant la deuxième place. Cela signifie que les pages sont chargées d'annonces qui ne sont souvent pas clairement distinguées des résultats de recherche. Aussi, Eitland on Hacker News Commentaires:

En y réfléchissant, il semble logique que pour un moteur de recherche qui, pratiquement, ait un monopole à la fois sur les utilisateurs et comme MattGB le souligne - [à un] degré également sur l'indexation - servir la bonne réponse d'abord est tout simplement stupide: s'ils peuvent me faire passer entre leurs résultats de recherche et les blogs technologiques avec leurs annonces embarquées une, deux ou cinq fois plus, ce qui signifie une, deux fois plus d'impressions d'administration.

Mais qu'en est-il ...?

L'espace des moteurs de recherche alternatifs s'est développé rapidement ces dernières années. Voici une liste très incomplète de certains qui m'ont intéressé:

search.marginalia.nu - un moteur de recherche privilégié des sites Web de texte
SearXng - un moteur de recherche de méta open source
Yacy - un moteur de recherche distribué open source
Stract - un moteur de recherche privé open source en mettant l'accent sur la confidentialité et la personnalisation
Courageux
Duckduckgo
Kagi

Parmi ceux-ci, Yacy est le plus proche de l'idée d'un moteur de recherche à but non lucratif. L'indice est distribué sur un réseau entre pairs. Malheureusement, cette décision de conception ralentit la récupération des résultats de recherche.

La recherche de marginalia est fantastique, mais nos objectifs sont différents: nous visons à remplacer les moteurs de recherche commerciaux tandis que Marginalia vise à fournir un type de recherche différent.

Tous les autres moteurs de recherche que j'ai rencontrés sont à but lucratif. S'il vous plaît laissez-moi savoir si j'en ai manqué un!

Conception pour un organisme à but non lucratif

Pour être un bon moteur de recherche, nous devons stocker de nombreux articles, mais le coût de l'exécution du moteur est au moins proportionnel au nombre d'articles stockés. Notre principale considération est ainsi de réduire le coût par article stocké.

La conception est fondée sur l'observation que la plupart des articles se classent pour un petit ensemble de termes. Dans la version extrême de cela, où chaque élément se classe pour un seul terme, la conception d'index inversée habituelle est largement inefficace, car nous devons stocker chaque terme au moins deux fois: une fois dans l'index et une fois dans les données de l'élément lui-même.

Notre conception est une carte de hachage géante. Nous avons un seul magasin composé d'un nombre fixe n de pages. Chaque page est de taille fixe (actuellement 4096 octets pour correspondre à une page de mémoire) et se compose d'une liste compressée d'éléments. Étant donné un terme pour lequel nous voulons un élément à classer, nous calculons un hachage du terme, une valeur comprise entre 0 et n - 1. L'élément est ensuite stocké dans la page correspondante.

Pour récupérer des pages, nous calculons simplement le hachage des termes de la requête utilisateur et chargez les pages correspondantes, filtrez les éléments à ceux contenant le terme et classez les éléments. Étant donné que chaque page est petite, cela peut être fait très rapidement.

Parce que nous compressons la liste des éléments, nous pouvons classer plus d'un seul terme et maintenir un index plus petit que la conception d'index inversé. Du moins, c'est la théorie. Cette idée n'a pas encore été testée à grande échelle.

Comment contribuer

Il existe plusieurs façons d'aider:

Aidez-nous à ramper le Web
Donnez de l'argent à l'hébergement des coûts et en soutenant nos bénévoles
Donner des commentaires / suggestions
Aider au développement du moteur lui-même

Si vous souhaitez aider de ces manières ou d'autres, merci! Veuillez rejoindre notre serveur de chat Matrix ou envoyer un e-mail à l'auteur principal (l'adresse e-mail est dans l'historique GIT Commit).

Développement

Tests locaux

Pour avoir essayé le service localement, consultez la section dans le livre MWMBL.

Utilisation de Dokku

Remarque: Cette méthode n'est pas recommandée car elle est plus impliquée et votre index n'inclura aucune donnée à moins que vous ne configuriez un robot pour ramper sur votre serveur. Vous devrez configurer votre propre stockage de backblaze ou S3, ou avoir accès aux clés de production, que nous ne vous donnerons probablement pas.

Suivez les instructions de déploiement

Question fréquemment posée

Comment prononcez-vous "MWMBL"?

Comme "marmonner". Je vis à Mumbles, qui est orthographié "MWMBWLS" en gallois. Mais la signification voulue est "de marmonner", comme dans "Ne recherchez pas, juste MWMBL!"

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-11
taille 68.54MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout