Descarga clientside search - Descargar el código fuente clientside search

clientside search

Otro código fuente

1.0.0

Descargar

búsqueda de clientes

"¿Por qué no tenemos un motor de búsqueda decente, similar al cliente (en el navegador)?"

Esta biblioteca proporciona funciones de búsqueda de texto completo similar a Lucene para el navegador y node.js.

Este motor de búsqueda utiliza varios algoritmos avanzados para proporcionar una búsqueda robusta y eficiente sobre una gran colección de documentos. Los algoritmos utilizados incluyen TF-IDF para pesar y clasificación, árbol BK para la coincidencia difusa, BM25 para la puntuación de relevancia y la distancia de Damerau-Levenshtein para medir la distancia de edición entre los términos de búsqueda. El motor de búsqueda admite múltiples idiomas y utiliza la eliminación de la palabra de parada y las palabras de parada para mejorar su eficiencia. También respalda el almacenamiento y la recuperación de metadatos asociados con los documentos. Puede generar un índice a partir de un corpus de texto y metadatos tanto en el lado del cliente como en el servidor. Puede hidratar y rehidratar (reutilizar un pregenerado) también en el índice en el lado del cliente y el servidor.

Historias de usuarios de los desarrolladores

Quiero usar un índice similar a Lucene que use Vectorización TF-IDF, BM25 y Bktree Ranking, así como la bola de nieve y las palabras de parada en el lado del cliente.
Quiero generar el índice de búsqueda, ya sea en el lado del cliente o del lado del servidor (y rehidrate/reutilizarlo en el cliente o del lado del servidor). La información de estado debe ser pequeña y comprimida.
La búsqueda de texto completo será rápida y eficiente, no conducir a muchos positivos falsos o falsos negativos.
El motor de búsqueda debe poder retirarse y buscar en metadatos que puedan estar asociados con cada documento.
El motor de búsqueda debe poder eliminar/actualizar sus documentos del índice.
El estado será hidratable.

Características

✅ Búsqueda de texto completo : proporciona la capacidad de realizar una búsqueda integral basada en texto en una gran colección de documentos.
✅ Soporte multilingüe : admite múltiples idiomas para indexar y buscar documentos y detección de lenguaje automático para el texto de entrada.
✅ Procesamiento de texto : incluye operaciones de transformación de texto como la conversión a minúsculas, división por palabras, bola de nieve (Dr. Martin Porter) y eliminación de palabras de parada.
✅ Indexación de documentos : permite agregar documentos al índice junto con los metadatos para que se puedan buscar. Extracción del documento: proporciona funcionalidad para eliminar un documento específico del índice basado en su ID.
✅ Procesamiento de consultas de búsqueda : procesa consultas de búsqueda de la misma manera que el texto del documento para garantizar un algoritmo coincidente consistente.
✅ Relevancia puntuación con el algoritmo BM25 : utiliza el algoritmo BM25 para la calificación de relevancia de documentos contra consultas de búsqueda.
✅ COCARACIÓN Fuzzy con BK-Tree : utiliza una estructura de árbol BK para realizar una coincidencia difusa, es decir, para encontrar palabras en el índice que sean similares a los términos de búsqueda.
✅ Ponderación de la frecuencia de documento de la frecuencia de términos (TF-IDF) : utiliza TF-IDF para peso y clasifica las palabras indexadas en función de su importancia en el documento y la rareza en el conjunto general de documentos.
✅ Hidratación y deshidratación de estado : proporciona funcionalidad para ahorrar (deshidratarse) el estado del motor de búsqueda a un formato comprimido, o para restaurarlo (hidratar) desde un estado previamente guardado, ya sea local o remotamente.
✅ Cálculo de la distancia Damerau-Levenshtein : incluye una función para calcular la distancia Damerau-Levenshtein, es decir, el número mínimo de operaciones (inserciones, deleciones, sustituciones, transposición) requerida para cambiar una palabra a otra.
✅ Puntuación fonética : utiliza algoritmos fonéticos específicos del lenguaje, como el doble metafono y Koelner Phonetik como un interruptor de empate cuando la distancia de Damerau-Levenshtein es igual para dos partidos.
✅ Generación de ID de documento : genera una ID única para cada documento basado en su texto.
✅ Selección automática de palabras de parada : selecciona las mejores palabras de parada predeterminadas por idioma admitido.
✅ Actualmente es compatible solo: en , de , fr , es , ja
✅ Admite UTF8
✅ Disponible como una API simple
✅ Solo 8 KiB de nano (ESM, GIZPPED, BASE BILIDOBLE)
✅ ¡cero dependencias!
✅ Sidio de árboles y libres de efectos secundarios
✅ Soporte mecanografiado de primera clase
✅ Bien probado usando pruebas unitarias de Jest

Uso de ejemplo

Configuración

hilo: yarn add clientside-search
NPM: npm install clientside-search

ESM

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

Commonjs

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Hoja de ruta

Soporte avanzado del idioma asiático:
- Apoyo para chino usando jieba
  - No Bktree, pero N-gram comparación
  - TF-IDF basado en personajes
  - Desactivar Stemming
  - por ejemplo, similitud de Jaccard
- coreano
  - No Bktree, pero N-gram comparación
  - Jamo Levenshtein Distancia
  - TF-IDF

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-12
tamaño 506.42KB
Proviene de Github

Aplicaciones relacionadas

Búsqueda de palabras 800

2024-11-08
azure search python samples

2024-11-05
Búsqueda de palabras Juego de rompecabezas de palabras Última versión

2024-07-11
Juego de búsqueda de palabras para niños, última versión

2023-10-08
Motor de búsqueda Hanfox

2012-03-15
Liehuo! Buscar búsqueda en inglés

2011-01-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo