O TLGS é um mecanismo de pesquisa para Gêmeos. É um pouco exagerado para o que é atualmente e usa tecnologia estranha. E estou orgulhoso disso. O código atual Basse é meio bagunçado - prometo limpá -los. Os principais recursos/características são os seguintes:
A partir de agora, a indexação de sites de notícias, RFCs e documentações são principalmente desativadas. Mas provavelmente pode ser ativado quando eu tiver a média e os recursos para dimensionar a configuração.
Para construir o projeto. Você precisará de um compilador capaz totalmente C ++ 20. Os seguintes compiladores devem funcionar até escrever este readme
Instalar todas as dependências. E execute os comandos:
mkdir build
cd build
cmake ..
make -jPara criar o índice inital:
./tlgs/tlgs_ctl/tlgs_ctl ../tlgs/config.json populate_schemaseeds.text./tlgs/crawler/tlgs_crawler -s seeds.text -c 4 ../tlgs/config.jsonAgora, o rastreador começará a rastejar o Geminispace enquanto também atualiza os índices desatualizados (se houver). Para atualizar um índice existente. Correr:
./tlgs/crawler/tlgs_crawler -c 2 ../tlgs/config.json
# -c is the maximum concurrent connections the crawler will makeNota: O rastreador da TLGS é distribuível. Você pode executar várias instâncias em paralelo. Mas algumas intenções podem cair cedo no final ou rastejando. Embora isso não afete o resultado do rastreamento.
openssl req -new -subj " /CN=my.host.name.space " -x509 -newkey ec -pkeyopt ec_paramgen_curve:prime256v1 -days 36500 -nodes -out cert.pem -keyout key.pem
cd tlgs/server
./tlgs_server ../../../tlgs/server_config.jsonsudo systemctl start tlgs_server
sudo systemctl start tlgs_crawler A seção custom_config.tlgs em search_config.json (instalada em /etc/tlgs/server_config.json ) contém conflitos para o servidor TLGS. Além das opções habituais de configuração de Drogon. Custom_config altera a propriedade do próprio TLGS. As opções suportadas atuais são:
O algoritmo de classificação TLGS usa para classificar as páginas no resultado da pesquisa. A classificação é então combinada com a pontuação da correspondência de texto para produzir a classificação final de pesquisa. Os valores suportados atuais são hits e salsa . Referindo -se aos hits e algoritmo de classificação de salsa. Padrives para salsa se nenhum valor for fornecido.
O salsa funciona um pouco mais rápido que os hits para grandes resultados de pesquisa. Tanto a literatura quanto a experiência imperial sugerem que a Salsa oferece uma melhor classificação. Assim, mudamos de hits para salsa.
"ranking_algo" : " salsa "