clientside search

clientside search

Autre code source

1.0.0

Télécharger

Clientside-Search

"Pourquoi n'avons-nous pas un moteur de recherche côté client (in-navigateur) décent et lunene maintenant?"

Cette bibliothèque fournit des fonctionnalités de recherche en texte complet de type lunene pour le navigateur et Node.js.

Ce moteur de recherche utilise plusieurs algorithmes avancés pour fournir une recherche robuste et efficace sur une grande collection de documents. Les algorithmes utilisés incluent TF-IDF pour la pesée et le classement, BK-Tree pour la correspondance floue, BM25 pour la notation de pertinence et la distance de Damerau-Levenshtein pour mesurer la distance d'édition entre les termes de recherche. Le moteur de recherche prend en charge plusieurs langues et utilise la suppression des mots en tige et des mots arrêtés pour améliorer son efficacité. Il prend également en charge le stockage et la récupération des métadonnées associées aux documents. Vous pouvez générer un index à partir d'un corpus de texte et de métadonnées à côté du client et du serveur. Vous pouvez hydrater et réhydrater (réutiliser un pré-généré) l'index également à la fois sur le côté client et au serveur.

Stories d'utilisateurs des développeurs

Je veux utiliser un index de type lunene qui utilise la vectorisation TF-IDF, le classement BM25 et BKTREE ainsi que la boule de neige engelant et les mots arrêtés du côté client.
Je souhaite générer l'index de recherche du côté client ou du côté serveur (et réhydrater / réutiliser le client ou le côté serveur). Les informations sur l'état doivent être petites et compressées.
La recherche en texte intégral doit être rapide et efficace, ne conduisant pas beaucoup de faux positifs ou de faux négatifs.
Le moteur de recherche doit être en mesure de retreindre et de rechercher dans des métadonnées qui peuvent être associées à chaque document.
Le moteur de recherche doit pouvoir supprimer / mettre à jour ses documents d'index.
L'état doit être hydratable.

Caractéristiques

✅ Full-Text Search : Provides the ability to perform a comprehensive text-based search over a large collection of documents.
✅ Multilingual Support : Supports multiple languages for indexing and searching documents and automatic language detection for input text.
✅ Text Processing : Includes text transformation operations like converting to lower case, splitting by words, snowball stemming (Dr. Martin Porter), and stopword removal.
✅ Document Indexing : Allows adding of documents to the index along with metadata to make them searchable. Suppression du document: fournit des fonctionnalités pour supprimer un document spécifique de l'indice en fonction de son ID.
✅ Search Query Processing : Processes search queries in the same way as document text to ensure a consistent matching algorithm.
✅ Relevance Scoring with BM25 Algorithm : Uses the BM25 algorithm for relevance scoring of documents against search queries.
✅ Fuzzy Matching with BK-Tree : Uses a BK-Tree structure to perform fuzzy matching, ie, to find words in the index that are similar to the search terms.
✅ Term Frequency-Inverse Document Frequency (TF-IDF) Weighting : Uses TF-IDF to weight and rank the indexed words based on their importance in the document and rarity in the overall document set.
✅ State Hydration and Dehydration : Provides functionality to save (dehydrate) the state of the search engine to a compressed format, or to restore (hydrate) it from a previously saved state either locally or remotely.
✅ Damerau-Levenshtein Distance Calculation : Includes a function to calculate the Damerau-Levenshtein distance, ie, the minimum number of operations (insertions, deletions, substitutions, transposition) required to change one word into another.
✅ Phonetic Scoring : Uses language-specific phonetic algorithms such as Double Metaphone and Koelner Phonetik as a tie breaker when Damerau-Levenshtein Distance is equal for two matches.
✅ Document ID Generation : Generates a unique ID for each document based on its text.
✅ Automatic Stop Word selection : Selects the best default stop words per language supported.
✅ Currently supports only: en , de , fr , es , ja
✅ prend en charge UTF8
✅ Disponible en API simple
✅ Just 8 KiB nano sized (ESM, gizpped, base library)
✅ zéro dépendances!
✅ Arbre-shakable et sans effet secondaire
✅ Prise en charge de la première classe dactylographiée
✅ Bien testé à l'aide de tests d'unité de plaisanterie

Exemple d'utilisation

Installation

yarn: yarn add clientside-search
npm: npm install clientside-search

ESM

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

CommonJS

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Feuille de route

Support avancé de langue asiatique:
- Support for Chinese using Jieba
  - Pas de bktree, mais de comparaison n-gram
  - TF-IDF basé sur les caractères
  - Désactiver
  - par exemple la similitude de Jaccard
- coréen
  - Pas de bktree, mais de comparaison n-gram
  - Distance de Jamo Levenshtein
  - Tf-idf

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-12
taille 506.42KB
Provenant de Github

Applications connexes

Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
Recherche de mots Jeu de puzzle de mots Dernière version

2024-07-11
Recherche de mots pour les enfants, dernière version du jeu

2023-10-08
Moteur de recherche Hanfox

2012-03-15
Liehuo! Rechercher Recherche en anglais

2011-01-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout