Pas d'annonces, pas de suivi, pas de profit
MWMBL est un moteur de recherche open source à but non lucratif où la communauté détermine le classement. Nous visons à remplacer les moteurs de recherche commerciaux tels que Google et Bing.

Nous avons notre propre index propulsé par notre communauté. Notre indice est actuellement beaucoup plus petit que ceux des moteurs de recherche commerciaux, avec environ 500 millions d'URL uniques (plus de statistiques). La qualité est loin de faire correspondre les moteurs commerciaux en ce moment, mais vous pouvez aider à changer cela en vous joignant à nous! Nous visons à avoir 1 milliard d'URL uniques indexées d'ici la fin de 2024, 10 milliards d'ici la fin de 2025 et 100 milliards d'ici la fin de 2026 à ce moment-là, nous devons être comparables aux moteurs de recherche commerciaux.
Notre communauté principale est sur Matrix, mais nous avons également un serveur Discord pour une discussion liée au développement.
La communauté est chargée de ramper sur le Web (voir ci-dessous) et de conserver les résultats de recherche. Nous sommes sympathiques et accueillants. Rejoignez-nous!
Toute la documentation est sur https://book.mwmbl.org.
Le rampage est distribué dans la communauté, tandis que l'indexation est centralisée sur le serveur principal.
Si vous avez une alimentation informatique de rechange et une bande passante, la meilleure façon de vous aider est d'exécuter notre robot de commande avec autant de threads que vous pouvez épargner.
Si vous avez Firefox, vous pouvez vous aider en installant notre extension. Cela rampera sur le Web en arrière-plan. Il n'utilise ni n'accède à aucune de vos données personnelles. Au lieu de cela, il rampe un ensemble d'URL envoyés depuis notre serveur central. Après avoir extrait un résumé de chaque page, il les regorge et envoie les données au serveur central à stocker et à indexer.
Les motifs des moteurs de recherche financés par la publicité sont en contradiction de fournir une expérience utilisateur optimale. Ces sites sont optimisés pour les revenus publicitaires, l'expérience utilisateur prenant la deuxième place. Cela signifie que les pages sont chargées d'annonces qui ne sont souvent pas clairement distinguées des résultats de recherche. Aussi, Eitland on Hacker News Commentaires:
En y réfléchissant, il semble logique que pour un moteur de recherche qui, pratiquement, ait un monopole à la fois sur les utilisateurs et comme MattGB le souligne - [à un] degré également sur l'indexation - servir la bonne réponse d'abord est tout simplement stupide: s'ils peuvent me faire passer entre leurs résultats de recherche et les blogs technologiques avec leurs annonces embarquées une, deux ou cinq fois plus, ce qui signifie une, deux fois plus d'impressions d'administration.
L'espace des moteurs de recherche alternatifs s'est développé rapidement ces dernières années. Voici une liste très incomplète de certains qui m'ont intéressé:
Parmi ceux-ci, Yacy est le plus proche de l'idée d'un moteur de recherche à but non lucratif. L'indice est distribué sur un réseau entre pairs. Malheureusement, cette décision de conception ralentit la récupération des résultats de recherche.
La recherche de marginalia est fantastique, mais nos objectifs sont différents: nous visons à remplacer les moteurs de recherche commerciaux tandis que Marginalia vise à fournir un type de recherche différent.
Tous les autres moteurs de recherche que j'ai rencontrés sont à but lucratif. S'il vous plaît laissez-moi savoir si j'en ai manqué un!
Pour être un bon moteur de recherche, nous devons stocker de nombreux articles, mais le coût de l'exécution du moteur est au moins proportionnel au nombre d'articles stockés. Notre principale considération est ainsi de réduire le coût par article stocké.
La conception est fondée sur l'observation que la plupart des articles se classent pour un petit ensemble de termes. Dans la version extrême de cela, où chaque élément se classe pour un seul terme, la conception d'index inversée habituelle est largement inefficace, car nous devons stocker chaque terme au moins deux fois: une fois dans l'index et une fois dans les données de l'élément lui-même.
Notre conception est une carte de hachage géante. Nous avons un seul magasin composé d'un nombre fixe n de pages. Chaque page est de taille fixe (actuellement 4096 octets pour correspondre à une page de mémoire) et se compose d'une liste compressée d'éléments. Étant donné un terme pour lequel nous voulons un élément à classer, nous calculons un hachage du terme, une valeur comprise entre 0 et n - 1. L'élément est ensuite stocké dans la page correspondante.
Pour récupérer des pages, nous calculons simplement le hachage des termes de la requête utilisateur et chargez les pages correspondantes, filtrez les éléments à ceux contenant le terme et classez les éléments. Étant donné que chaque page est petite, cela peut être fait très rapidement.
Parce que nous compressons la liste des éléments, nous pouvons classer plus d'un seul terme et maintenir un index plus petit que la conception d'index inversé. Du moins, c'est la théorie. Cette idée n'a pas encore été testée à grande échelle.
Il existe plusieurs façons d'aider:
Si vous souhaitez aider de ces manières ou d'autres, merci! Veuillez rejoindre notre serveur de chat Matrix ou envoyer un e-mail à l'auteur principal (l'adresse e-mail est dans l'historique GIT Commit).
Pour avoir essayé le service localement, consultez la section dans le livre MWMBL.
Remarque: Cette méthode n'est pas recommandée car elle est plus impliquée et votre index n'inclura aucune donnée à moins que vous ne configuriez un robot pour ramper sur votre serveur. Vous devrez configurer votre propre stockage de backblaze ou S3, ou avoir accès aux clés de production, que nous ne vous donnerons probablement pas.
Suivez les instructions de déploiement
Comme "marmonner". Je vis à Mumbles, qui est orthographié "MWMBWLS" en gallois. Mais la signification voulue est "de marmonner", comme dans "Ne recherchez pas, juste MWMBL!"