TLGS - это поисковая система для Близнецов. Это немного перегружено тем, что он в настоящее время является, и использует странные технологии. И я горжусь этим. Текущий бас кода довольно грязный - я обещаю очистить их. Основные особенности/характеристики следующие:
На данный момент индексация новостных сайтов, RFC, документации в основном отключено. Но, вероятно, будет включено, когда у меня будут среднее значение и ресурсы для масштабирования настройки.
Чтобы построить проект. Вам понадобится полностью компилятор C ++ 20. Следующие компиляторы должны работать как написание этого Readme
Установите все зависимости. И запустите команды:
mkdir build
cd build
cmake ..
make -jЧтобы создать индекс INITAL:
./tlgs/tlgs_ctl/tlgs_ctl ../tlgs/config.json populate_schemaseeds.text./tlgs/crawler/tlgs_crawler -s seeds.text -c 4 ../tlgs/config.jsonТеперь Crawler начнет ползать по Geminispace, а также обновлять устаревшие индексы (если таковые имеются). Обновить существующий индекс. Бегать:
./tlgs/crawler/tlgs_crawler -c 2 ../tlgs/config.json
# -c is the maximum concurrent connections the crawler will makeПримечание: гусеница TLGS распределяется. Вы можете запустить несколько экземпляров параллельно. Но некоторые намерения могут упасть рано ближе к концу или ползать. Хотя это не влияет на результат ползания.
openssl req -new -subj " /CN=my.host.name.space " -x509 -newkey ec -pkeyopt ec_paramgen_curve:prime256v1 -days 36500 -nodes -out cert.pem -keyout key.pem
cd tlgs/server
./tlgs_server ../../../tlgs/server_config.jsonsudo systemctl start tlgs_server
sudo systemctl start tlgs_crawler Раздел custom_config.tlgs в search_config.json (установлен по адресу /etc/tlgs/server_config.json ) содержит конфурации для сервера TLGS. Помимо обычных параметров конфигурации Drogon. Custom_config изменяет свойство самого TLGS. Текущие поддерживаемые варианты:
Алгоритм ранжирования TLGS использует для ранжирования страниц в результатах поиска. Затем рейтинг объединяется с оценкой текстового матча, чтобы создать окончательный рейтинг поиска. Текущие поддерживаемые значения - это hits и salsa . Ссылаясь на алгоритм ранжирования хитов и сальсы. Он по умолчанию salsa , если не предоставляется стоимость.
Сальса работает немного быстрее, чем удары для больших результатов поиска. Как литература, так и имперация предполагают, что сальса обеспечивает лучший рейтинг. Таким образом, мы перешли с ударов на сальсу.
"ranking_algo" : " salsa "