O Mini Site Searcher é um indexador de site simples e mecanismo de pesquisa, que rastreará e armazenará automaticamente em cache o conteúdo do seu site e fornecerá uma funcionalidade de pesquisa por meio de uma API REST.
Ele pode ser usado para fornecer a funcionalidade de pesquisa para blogs de sites estáticos ou para construir uma base de conhecimento pessoal pesquisável,...
Primeiro, você precisa criar um arquivo .env para descrever como deseja configurar o rastreador.
Por exemplo, com a configuração a seguir, queremos configurar um indexador para um site em https://my.blog , o rastreador começará a olhar a página https://my.blog/index.html e encontrará todos os link que possui /posts em sua URL, portanto, o seletor CSS para ele deve ser a[href*=/posts] . E ao seguir cada link, o rastreador obterá o conteúdo de texto de qualquer tag <article class="main-content"> .
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
Em seguida, execute o servidor:
cargo run
Após o início, o rastreador entrará em ação e poderá demorar um pouco para concluir a indexação. Uma API REST também será servida na porta padrão 3366 ou em qualquer outra variável de ambiente PORT . Para pesquisar, faça uma solicitação GET como esta:
GET /?keyword=<something>
O programa tem dois componentes:
