Download clientside search - Download de código -fonte clientside search

clientside search

Outro código-fonte

1.0.0

Baixar

CLIENTESIDE-SEARCH

"Por que não temos um mecanismo de pesquisa decente e do lado do cliente (no navegador) agora?"

Esta biblioteca fornece recursos de pesquisa de texto completo do tipo Lucene para o navegador e o Node.JS.

Este mecanismo de pesquisa usa vários algoritmos avançados para fornecer pesquisas robustas e eficientes em relação a uma grande coleção de documentos. Os algoritmos utilizados incluem TF-IDF para pesagem e classificação, BK-Tree para correspondência difusa, BM25 para pontuação de relevância e distância de Damerau-Levenshtein para medir a distância de edição entre os termos de pesquisa. O mecanismo de pesquisa suporta vários idiomas e usa a remoção de palavras -parto e palavras para aumentar sua eficiência. Ele também suporta o armazenamento e a recuperação de metadados associados aos documentos. Você pode gerar um índice a partir de um corpus de texto e metadados no lado do cliente e do servidor. Você pode hidratar e re-hidratar (reutilizar um pré-gerado) o índice também no lado do cliente e do servidor.

Histórias de usuários dos desenvolvedores

Quero usar um índice do tipo Lucene que use a vetorização TF-IDF, a classificação BM25 e BKTree, bem como a bola de neve decorrente e as palavras de parada no lado do cliente.
Quero gerar o índice de pesquisa no lado do cliente ou no lado do servidor (e re-hidratá-lo/reutilizar no cliente ou no servidor). As informações do estado devem ser pequenas e comprimidas.
A pesquisa de texto completo deve ser rápido e eficiente, não levando a muitos falsos positivos ou falsos negativos.
O mecanismo de pesquisa deve ser capaz de recuperar e pesquisar em metadados que possam estar associados a cada documento.
O mecanismo de pesquisa deve poder remover/atualizar os documentos do índice.
O estado deve ser hidratável.

Características

✅ Pesquisa de texto completo : fornece a capacidade de executar uma pesquisa abrangente baseada em texto em uma grande coleção de documentos.
✅ Suporte multilíngue : suporta vários idiomas para indexação e pesquisa de documentos e detecção automática de linguagem para o texto de entrada.
✅ Processamento de texto : inclui operações de transformação de texto, como conversão para minúsculas, dividindo -se por palavras, Snowball Stemming (Dr. Martin Porter) e remoção de palavras -paradas.
✅ Indexação de documentos : permite a adição de documentos ao índice junto com os metadados para torná -los pesquisáveis. Remoção do documento: fornece funcionalidade para remover um documento específico do índice com base em seu ID.
✅ Processamento da consulta de pesquisa : processos de procesos de pesquisa da mesma maneira que o texto do documento para garantir um algoritmo de correspondência consistente.
✅ Pontuação de relevância com o algoritmo BM25 : usa o algoritmo BM25 para obter a pontuação de relevância de documentos em relação às consultas de pesquisa.
✅ Combinação difusa com BK-Tree : usa uma estrutura BK-Tree para executar a correspondência difusa, ou seja, para encontrar palavras no índice que sejam semelhantes aos termos de pesquisa.
✅ Frequência de termo Frequência-Inversa de frequência de documentos (TF-IDF) Ponderação : usa o TF-IDF para ponderar e classificar as palavras indexadas com base em sua importância no documento e raridade no conjunto geral de documentos.
✅ Hidratação e desidratação do estado : fornece funcionalidade para salvar (desidratar) o estado do mecanismo de pesquisa em um formato compactado ou para restaurá -lo (hidratar) de um estado salvo anteriormente local ou remotamente.
✅ Damerau-Levenshtein Cálculo da distância : inclui uma função para calcular a distância de Damerau-Levenshtein, ou seja, o número mínimo de operações (inserções, deleções, substituições, transposição) necessárias para alterar uma palavra em outra.
✅ Pontuação fonética : usa algoritmos fonéticos específicos da linguagem, como metapona dupla e Koelner Phonetik como um disjuntor quando a distância de Damerau-Levenshtein é igual para duas correspondências.
✅ Generação de identificação do documento : gera um ID exclusivo para cada documento com base em seu texto.
✅ Seleção automática de palavras de parada : seleciona as melhores palavras de parada padrão por idioma suportadas.
✅ Atualmente, suporta apenas: en , de , fr , es , ja, ja
✅ suporta UTF8
✅ Disponível como uma API simples
✅ Apenas 8 KiB Nano Size (ESM, Gizpped, Base Biblioteca)
✅ Dependências zero!
✅ Shakable de árvore e de efeito colateral
✅ Suporte digital de primeira classe
✅ Bem testado usando testes de unidade de jest

Exemplo de uso

Configurar

Fio: yarn add clientside-search
NPM: npm install clientside-search

Esm

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

Commonjs

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Roteiro

Suporte avançado de linguagem asiática:
- Apoio ao chinês usando Jieba
  - Sem bktree, mas comparação n-grama
  - TF-IDF baseado em caracteres
  - Desativar o caule
  - por exemplo, similaridade de Jaccard
- coreano
  - Sem bktree, mas comparação n-grama
  - Jamo Levenshtein Distância
  - TF-IDF

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-12
tamanho 506.42KB
Vindo de Github

Aplicativos Relacionados

Pesquisa de palavras 800

2024-11-08
azure search python samples

2024-11-05
Versão mais recente do jogo de quebra-cabeça de palavras de pesquisa de palavras

2024-07-11
Versão mais recente do jogo Word Search para crianças

2023-10-08
Mecanismo de pesquisa Hanfox

2012-03-15
Liehuo! Pesquisar Pesquisa em inglês

2011-01-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos