Este é o código -fonte da pesquisa da Marginalia.
O objetivo do projeto é desenvolver métodos de descoberta novos e alternativos para a Internet. É uma oficina experimental, tanto quanto um serviço público, o objetivo abrangente é elevar os lados mais humanos e não comerciais da Internet.
Um gol lateral é fazer isso sem a necessidade de datacenters e orçamentos de hardware corporativo, para poder executar essa operação em hardware acessível com uma sobrecarga operacional mínima.
O plano de longo prazo é refinar o mecanismo de busca para que ele forneça valor público suficiente para que o projeto possa ser financiado por meio de subsídios, doações e licenças de API comercial (as ações não comerciais são sempre gratuitas).
O sistema pode ser executado como uma cópia da Pesquisa da Marginalia ou como um mecanismo de pesquisa de etiquetas brancas para obter seus próprios dados (rastreados ou com carga lateral). Atualmente, a lógica não é muito configurável, e muitos dos julgamentos feitos são baseados nos objetivos do Projeto Marginalia, mas a configuração adicional está sendo trabalhada!
Aqui está uma demonstração da configuração e operação do modo Barebones auto-hospedável do mecanismo de pesquisa :? https://www.youtube.com/watch?v=pnwmkenqq24
Para configurar um ambiente de teste local, siga as instruções? RUN/README.MD!
Documentação adicional está disponível em? https://docs.marginalia.nu/.
Antes de compilar, é necessário executar run/setup.sh. Isso baixará dados de modelos suplementares necessários para executar o código. Eles também são necessários para executar os testes.
Se você deseja invadir o código, confira? doc/iDe-configuration.md.
Um ambiente semelhante à produção requer muita RAM e SSDs corporativos idealmente para o índice, bem como alguns terabytes adicionais de resistentes mais lentos para armazenar dados de rastreamento. Pode ser feito para executar em hardware menor, limitando o tamanho do índice.
O sistema definitivamente será executado em uma máquina de 32 GB, possivelmente menor, mas nesse tamanho pode não ter um desempenho muito bem, pois depende do cache de disco para ser rápido.
A implantação de um desenvolvedor local é possível com hardware muito menor (e tamanho do índice).
? Código/ - O código -fonte. Ver ? código/readme.md para obter uma discriminação adicional da estrutura e arquitetura.
? Executar/ - scripts e arquivos usados para executar o mecanismo de pesquisa localmente
? terceiros/ - código de terceiros
? Doc/ - Documentação Suplementar
? Contribuindo.md - como contribuir
? License.md - Termos de licença
Você pode enviar um e -mail para [email protected] com qualquer dúvida ou feedback.
A maior parte do projeto está disponível no AGPL 3.0, com exceções. Algumas peças são co-licenciadas pelo MIT, o código de terceiros pode ter licenças diferentes. Consulte o readme.md / licença apropriado.
O projeto usa versão de calendário modificada, onde os dois primeiros pares de números são um ano e mês que coincidem com a mais recente operação de rastreamento, e o terceiro número é um número de patch.
version
--
yy.mm.VV
-----
crawl
Por exemplo, 23.03.02 é uma liberação com dados de rastreamento de março de 2023 (lançado em maio de 2023). É o segundo patch para a versão de 23.02.
As versões com o mesmo ano e mês são compatíveis entre si ou oferecem um caminho de atualização onde o mesmo conjunto de dados pode ser usado, mas em diferentes conjuntos de rastreamento de dados de dados podem ser introduzidos, e geralmente se espera relatar os dados do zero, pois os dados de crawler têm vida útil aproximadamente até que os principais ciclos de lançamento deste projeto. Após cerca de 2-3 meses, fica visivelmente obsoleto com muitos links mortos.
Para fins de desenvolvimento, o rastreamento é desencorajado e os dados da amostra estão disponíveis. Ver ? Run/readme.md para obter mais informações.
Considere doar para o projeto.
Este projeto foi financiado pelo NGI0 INGST Fund, um fundo estabelecido pela NLNET com apoio financeiro do programa de Internet da próxima geração da Comissão Europeia, sob a égide das redes de comunicações da DG, conteúdo e tecnologia sob o contrato de concessão nº 101069594.