Der Mini Site Searcher ist ein einfacher Site-Indexer und eine Suchmaschine, die den Inhalt Ihrer Website automatisch crawlt und zwischenspeichert und über eine REST-API eine Suchfunktion bereitstellt.
Es kann verwendet werden, um die Suchfunktion für statische Website-Blogs bereitzustellen oder um eine durchsuchbare persönliche Wissensdatenbank aufzubauen ...
Zuerst müssen Sie eine .env Datei erstellen, um zu beschreiben, wie Sie den Crawler einrichten möchten.
Wenn wir beispielsweise mit der folgenden Konfiguration einen Indexer für eine Website unter https://my.blog einrichten möchten, beginnt der Crawler mit der Suche auf der Seite https://my.blog/index.html und findet alle Link, dessen URL /posts enthält, daher sollte der CSS-Selektor dafür a[href*=/posts] sein. Und wenn der Crawler jedem Link folgt, erhält er den Textinhalt aller <article class="main-content"> -Tags.
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
Führen Sie dann den Server aus:
cargo run
Nach dem Start wird der Crawler aktiv und es kann eine Weile dauern, bis die Indizierung abgeschlossen ist. Eine REST-API wird auch am Standardport 3366 oder was auch immer in Ihrer PORT Umgebungsvariablen bereitgestellt wird. Um zu suchen, stellen Sie eine GET Anfrage wie diese:
GET /?keyword=<something>
Das Programm besteht aus zwei Komponenten:
