clientside search

clientside search

Anderer Quellcode

1.0.0

Herunterladen

Clientside-Suche

"Warum haben wir inzwischen keine anständige, lucene-ähnliche Kunden-Seite (In-Browser-) Suchmaschine?"

Diese Bibliothek bietet Lucene-ähnliche Volltext-Suchfunktionen für den Browser und den Node.js.

Diese Suchmaschine verwendet mehrere erweiterte Algorithmen, um eine robuste und effiziente Suche nach einer großen Sammlung von Dokumenten zu bieten. Zu den verwendeten Algorithmen gehören TF-IDF zum Wiegen und Ranking, BK-Tree für Fuzzy-Matching, BM25 zur Relevanzbewertung und Damerau-Levenshtein-Entfernung für die Messung des Bearbeitungsabstands zwischen den Suchbeginn. Die Suchmaschine unterstützt mehrere Sprachen und verwendet Stamm- und Stopword -Entfernung, um ihre Effizienz zu verbessern. Es unterstützt auch den Speicher und Abrufen von Metadaten, die mit den Dokumenten verbunden sind. Sie können einen Index aus einem Textkorpus und Metadaten sowohl auf client- als auch serverseitig generieren. Sie können den Index sowohl auf der Client als auch auf der serverseitigen Seite fydratieren und wiederverwenden (eine vorgenerierte).

Benutzergeschichten der Entwickler

Ich möchte einen Lucene-ähnlichen Index verwenden, der die TF-IDF-Vektorisierung, das BM25- und das BKTree-Ranking sowie die Schneeball-Rangliste verwendet und auf der Client-Seite gestoppt wird.
Ich möchte den Suchindex entweder auf client- oder serverseitig generieren (und ihn auf Client oder Server-Seite neu aushydrieren/wiederverwenden). Staatliche Informationen sollten klein und komprimiert sein.
Die Volltext-Suche muss schnell und effizient sein und nicht zu einer Vielzahl von Falschpositiven oder falsch-negativen führen.
Die Suchmaschine sollte in der Lage sein, in Metadaten zurückzuführen und zu suchen, die jedem Dokument zugeordnet werden können.
Die Suchmaschine sollte in der Lage sein, seine Indexdokumente zu entfernen/zu aktualisieren.
Staat muss hydratabel sein.

Merkmale

✅ Full-Text Search : Provides the ability to perform a comprehensive text-based search over a large collection of documents.
✅ Multilingual Support : Supports multiple languages for indexing and searching documents and automatic language detection for input text.
✅ Text Processing : Includes text transformation operations like converting to lower case, splitting by words, snowball stemming (Dr. Martin Porter), and stopword removal.
✅ Document Indexing : Allows adding of documents to the index along with metadata to make them searchable. Dokumententfernung: Bietet Funktionen zum Entfernen eines bestimmten Dokuments aus dem Index basierend auf seiner ID.
✅ Search Query Processing : Processes search queries in the same way as document text to ensure a consistent matching algorithm.
✅ Relevance Scoring with BM25 Algorithm : Uses the BM25 algorithm for relevance scoring of documents against search queries.
✅ Fuzzy Matching with BK-Tree : Uses a BK-Tree structure to perform fuzzy matching, ie, to find words in the index that are similar to the search terms.
✅ Term Frequency-Inverse Document Frequency (TF-IDF) Weighting : Uses TF-IDF to weight and rank the indexed words based on their importance in the document and rarity in the overall document set.
✅ State Hydration and Dehydration : Provides functionality to save (dehydrate) the state of the search engine to a compressed format, or to restore (hydrate) it from a previously saved state either locally or remotely.
✅ Damerau-Levenshtein Distance Calculation : Includes a function to calculate the Damerau-Levenshtein distance, ie, the minimum number of operations (insertions, deletions, substitutions, transposition) required to change one word into another.
✅ Phonetic Scoring : Uses language-specific phonetic algorithms such as Double Metaphone and Koelner Phonetik as a tie breaker when Damerau-Levenshtein Distance is equal for two matches.
✅ Document ID Generation : Generates a unique ID for each document based on its text.
✅ Automatic Stop Word selection : Selects the best default stop words per language supported.
✅ Currently supports only: en , de , fr , es , ja
✅ unterstützt UTF8
✅ als einfache API verfügbar
✅ Just 8 KiB nano sized (ESM, gizpped, base library)
✅ Zero -Abhängigkeiten!
✅ baumschackbar und seitliche Wirkung frei
✅ Erste Klasse TypeScript -Unterstützung
✅ Gut getestet mit Scherzeinheiten -Tests gut getestet

Beispiel Verwendung

Aufstellen

yarn: yarn add clientside-search
npm: npm install clientside-search

ESM

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

Commonjs

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Roadmap

Erweiterte asiatische Sprachunterstützung:
- Support for Chinese using Jieba
  - Kein Bktree, sondern N-Gramm-Vergleich
  - Charakter-basierte TF-IDF
  - Deaktivieren Sie das Stamm
  - zB Jaccard Ähnlichkeit
- Koreanisch
  - Kein Bktree, sondern N-Gramm-Vergleich
  - Jamo Levenshtein Distanz
  - Tf-idf

Expandieren

Zusätzliche Informationen