Download do mwmbl - Download do código fonte mwmbl

mwmbl

Outro código-fonte

1.0.0

Baixar

MWMBL - O mecanismo de pesquisa da web de código aberto

Sem anúncios, sem rastreamento, sem lucro

O MWMBL é um mecanismo de pesquisa de código aberto sem fins lucrativos, onde a comunidade determina as classificações. Nosso objetivo é substituir os mecanismos de busca comercial, como Google e Bing.

mwmbl

Temos nosso próprio índice alimentado por nossa comunidade. Atualmente, nosso índice é muito menor que o dos mecanismos de busca comercial, com cerca de 500 milhões de URLs únicos (mais estatísticas). A qualidade está longe de combinar os motores comerciais no momento, mas você pode ajudar a mudar isso se juntando a nós! Nosso objetivo é ter 1 bilhão de URLs únicos indexados até o final de 2024, 10 bilhões até o final de 2025 e 100 bilhões até o final de 2026, quando devemos ser comparáveis aos mecanismos de busca comercial.

Comunidade

Nossa comunidade principal está na Matrix, mas também temos um servidor Discord para discussão relacionada ao desenvolvimento.

A comunidade é responsável por rastejar a web (veja abaixo) e curadoria de resultados de pesquisa. Somos amigáveis e acolhedores. Junte-se a nós!

Documentação

Toda a documentação está em https://book.mwmbl.org.

Rastejando

O rastreamento é distribuído pela comunidade, enquanto a indexação é centralizada no servidor principal.

Se você tem energia de computador e largura de banda sobressalente, a melhor maneira de ajudar é executar nosso rastreador de linha de comando com tantos threads que puder.

Se você tem o Firefox, pode ajudar instalando nossa extensão. Isso rastejará a web em segundo plano. Ele não usa nem acessa nenhum de seus dados pessoais. Em vez disso, rasteja um conjunto de URLs enviados do nosso servidor central. Depois de extrair um resumo de cada página, ele os lotam e envia os dados para o servidor central para serem armazenados e indexados.

Por que um mecanismo de pesquisa sem fins lucrativos?

Os motivos dos mecanismos de pesquisa financiados por anúncios estão em desacordo ao fornecer uma experiência ideal para o usuário. Esses sites são otimizados para receita de anúncios, com a experiência do usuário em segundo lugar. Isso significa que as páginas são carregadas com anúncios que geralmente não são claramente distinguidos dos resultados da pesquisa. Além disso, Eitland on Hacker News Comentários:

Pensando nisso, parece lógico que, para um mecanismo de pesquisa que praticamente o fale tenha monopólio, tanto nos usuários quanto como o MattGB aponta - [em algum]] grau também na indexação - servir a resposta correta primeiro é burra: se eles podem me manter entre os resultados de pesquisa e os blogs de tecnologia com seus anúncios incorporados a um, duas ou cinco vezes mais, uma, uma, duas ou cinco vezes mais impressões.

Mas que tal ...?

O espaço de mecanismos de busca alternativos se expandiu rapidamente nos últimos anos. Aqui está uma lista muito incompleta de alguns que me interessaram:

Search.Marginalia.NU - Um mecanismo de pesquisa favorecendo sites pesados de texto
Searxng - um mecanismo de meta de código aberto
Yacy - um mecanismo de pesquisa distribuído de código aberto
STRACT - Um mecanismo de pesquisa privado de código aberto, com foco em privacidade e personalização
Corajoso
Duckduckgo
Kagi

Destes, Yacy é o mais próximo em espírito da idéia de um mecanismo de pesquisa sem fins lucrativos. O índice é distribuído em uma rede ponto a ponto. Infelizmente, essa decisão de design diminui a busca dos resultados da pesquisa.

A pesquisa da Marginalia é fantástica, mas nossos objetivos são diferentes: pretendemos substituir os mecanismos de busca comercial, enquanto a Marginalia visa fornecer um tipo diferente de pesquisa.

Todos os outros mecanismos de pesquisa que encontrei são fins lucrativos. Por favor, deixe -me saber se eu perdi um!

Projetando para organizações sem fins lucrativos

Para ser um bom mecanismo de pesquisa, precisamos armazenar muitos itens, mas o custo de executar o motor é pelo menos proporcional ao número de itens armazenados. Nossa principal consideração é, portanto, reduzir o custo por item armazenado.

O design é fundado na observação de que a maioria dos itens é classificada para um pequeno conjunto de termos. Na versão extrema disso, onde cada item é classificado para um único termo, o design de índice invertido usual é grosseiramente ineficiente, pois precisamos armazenar cada termo pelo menos duas vezes: uma vez no índice e uma vez nos dados do item.

Nosso design é um mapa gigante de hash. Temos uma única loja composta por um número fixo de páginas. Cada página é de tamanho fixo (atualmente 4096 bytes para corresponder a uma página de memória) e consiste em uma lista compactada de itens. Dado um termo para o qual queremos que um item seja classificado, calculamos um hash do termo, um valor entre 0 e n - 1. O item é então armazenado na página correspondente.

Para recuperar páginas, simplesmente calculamos o hash dos termos na consulta do usuário e carregamos as páginas correspondentes, filtram os itens para aqueles que contêm o termo e classificamos os itens. Como cada página é pequena, isso pode ser feito muito rapidamente.

Como comprimimos a lista de itens, podemos classificar por mais de um único termo e manter um índice menor que o design de índice invertido. Pelo menos, essa é a teoria. Essa idéia ainda não foi testada em larga escala.

Como contribuir

Existem várias maneiras de ajudar:

Ajude -nos a rastejar na web
Doe algum dinheiro para hospedar custos e apoiar nossos voluntários
Dê feedback/sugestões
Auxiliar no desenvolvimento do próprio motor

Se você gostaria de ajudar de qualquer uma dessas ou outras maneiras, obrigado! Participe do nosso servidor de bate -papo Matrix ou envie um email para o autor principal (o endereço de email está no histórico do GIT Commit).

Desenvolvimento

Teste local

Para experimentar o serviço localmente, consulte a seção no livro MWMBL.

Usando Dokku

Nota: Este método não é recomendado, pois está mais envolvido e seu índice não incluirá dados, a menos que você configure um rastreador para rastejar para o servidor. Você precisará configurar seu próprio armazenamento equivalente a backblaze ou S3 ou ter acesso às chaves de produção, que provavelmente não lhe daremos.

Siga as instruções de implantação

Pergunta frequente

Como você pronuncia "mwmbl"?

Como "Mumble". Eu moro em murmúrios, que está escrito "mwmbwls" em galês. Mas o significado pretendido é "murmurar", como em "Não pesquise, apenas mwmbl!"

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-11
tamanho 68.54MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos