Sem anúncios, sem rastreamento, sem lucro
O MWMBL é um mecanismo de pesquisa de código aberto sem fins lucrativos, onde a comunidade determina as classificações. Nosso objetivo é substituir os mecanismos de busca comercial, como Google e Bing.

Temos nosso próprio índice alimentado por nossa comunidade. Atualmente, nosso índice é muito menor que o dos mecanismos de busca comercial, com cerca de 500 milhões de URLs únicos (mais estatísticas). A qualidade está longe de combinar os motores comerciais no momento, mas você pode ajudar a mudar isso se juntando a nós! Nosso objetivo é ter 1 bilhão de URLs únicos indexados até o final de 2024, 10 bilhões até o final de 2025 e 100 bilhões até o final de 2026, quando devemos ser comparáveis aos mecanismos de busca comercial.
Nossa comunidade principal está na Matrix, mas também temos um servidor Discord para discussão relacionada ao desenvolvimento.
A comunidade é responsável por rastejar a web (veja abaixo) e curadoria de resultados de pesquisa. Somos amigáveis e acolhedores. Junte-se a nós!
Toda a documentação está em https://book.mwmbl.org.
O rastreamento é distribuído pela comunidade, enquanto a indexação é centralizada no servidor principal.
Se você tem energia de computador e largura de banda sobressalente, a melhor maneira de ajudar é executar nosso rastreador de linha de comando com tantos threads que puder.
Se você tem o Firefox, pode ajudar instalando nossa extensão. Isso rastejará a web em segundo plano. Ele não usa nem acessa nenhum de seus dados pessoais. Em vez disso, rasteja um conjunto de URLs enviados do nosso servidor central. Depois de extrair um resumo de cada página, ele os lotam e envia os dados para o servidor central para serem armazenados e indexados.
Os motivos dos mecanismos de pesquisa financiados por anúncios estão em desacordo ao fornecer uma experiência ideal para o usuário. Esses sites são otimizados para receita de anúncios, com a experiência do usuário em segundo lugar. Isso significa que as páginas são carregadas com anúncios que geralmente não são claramente distinguidos dos resultados da pesquisa. Além disso, Eitland on Hacker News Comentários:
Pensando nisso, parece lógico que, para um mecanismo de pesquisa que praticamente o fale tenha monopólio, tanto nos usuários quanto como o MattGB aponta - [em algum]] grau também na indexação - servir a resposta correta primeiro é burra: se eles podem me manter entre os resultados de pesquisa e os blogs de tecnologia com seus anúncios incorporados a um, duas ou cinco vezes mais, uma, uma, duas ou cinco vezes mais impressões.
O espaço de mecanismos de busca alternativos se expandiu rapidamente nos últimos anos. Aqui está uma lista muito incompleta de alguns que me interessaram:
Destes, Yacy é o mais próximo em espírito da idéia de um mecanismo de pesquisa sem fins lucrativos. O índice é distribuído em uma rede ponto a ponto. Infelizmente, essa decisão de design diminui a busca dos resultados da pesquisa.
A pesquisa da Marginalia é fantástica, mas nossos objetivos são diferentes: pretendemos substituir os mecanismos de busca comercial, enquanto a Marginalia visa fornecer um tipo diferente de pesquisa.
Todos os outros mecanismos de pesquisa que encontrei são fins lucrativos. Por favor, deixe -me saber se eu perdi um!
Para ser um bom mecanismo de pesquisa, precisamos armazenar muitos itens, mas o custo de executar o motor é pelo menos proporcional ao número de itens armazenados. Nossa principal consideração é, portanto, reduzir o custo por item armazenado.
O design é fundado na observação de que a maioria dos itens é classificada para um pequeno conjunto de termos. Na versão extrema disso, onde cada item é classificado para um único termo, o design de índice invertido usual é grosseiramente ineficiente, pois precisamos armazenar cada termo pelo menos duas vezes: uma vez no índice e uma vez nos dados do item.
Nosso design é um mapa gigante de hash. Temos uma única loja composta por um número fixo de páginas. Cada página é de tamanho fixo (atualmente 4096 bytes para corresponder a uma página de memória) e consiste em uma lista compactada de itens. Dado um termo para o qual queremos que um item seja classificado, calculamos um hash do termo, um valor entre 0 e n - 1. O item é então armazenado na página correspondente.
Para recuperar páginas, simplesmente calculamos o hash dos termos na consulta do usuário e carregamos as páginas correspondentes, filtram os itens para aqueles que contêm o termo e classificamos os itens. Como cada página é pequena, isso pode ser feito muito rapidamente.
Como comprimimos a lista de itens, podemos classificar por mais de um único termo e manter um índice menor que o design de índice invertido. Pelo menos, essa é a teoria. Essa idéia ainda não foi testada em larga escala.
Existem várias maneiras de ajudar:
Se você gostaria de ajudar de qualquer uma dessas ou outras maneiras, obrigado! Participe do nosso servidor de bate -papo Matrix ou envie um email para o autor principal (o endereço de email está no histórico do GIT Commit).
Para experimentar o serviço localmente, consulte a seção no livro MWMBL.
Nota: Este método não é recomendado, pois está mais envolvido e seu índice não incluirá dados, a menos que você configure um rastreador para rastejar para o servidor. Você precisará configurar seu próprio armazenamento equivalente a backblaze ou S3 ou ter acesso às chaves de produção, que provavelmente não lhe daremos.
Siga as instruções de implantação
Como "Mumble". Eu moro em murmúrios, que está escrito "mwmbwls" em galês. Mas o significado pretendido é "murmurar", como em "Não pesquise, apenas mwmbl!"