clientside search

clientside search

Kode sumber lainnya

1.0.0

Unduh

ClientSide-Search

"Mengapa kita tidak memiliki mesin pencari sisi klien (in-browser) yang layak, sekarang?"

Perpustakaan ini menyediakan fitur pencarian teks lengkap seperti Lucene untuk browser dan node.js.

Mesin pencari ini menggunakan beberapa algoritma canggih untuk memberikan pencarian yang kuat dan efisien atas banyak dokumen. Algoritma yang digunakan termasuk TF-IDF untuk penimbangan dan peringkat, BK-Tree untuk pencocokan fuzzy, BM25 untuk penilaian relevansi, dan jarak Damerau-Levenshtein untuk mengukur jarak edit antara istilah pencarian. Mesin pencari mendukung berbagai bahasa dan menggunakan penghapusan stemming dan stopword untuk meningkatkan efisiensinya. Ini juga mendukung penyimpanan dan pengambilan metadata yang terkait dengan dokumen. Anda dapat menghasilkan indeks dari corpus teks dan metadata baik di sisi klien dan server. Anda dapat melembabkan dan menghidrat kembali (menggunakan kembali indeks yang dihasilkan sebelumnya) juga pada sisi klien dan server.

Cerita pengguna pengembang

Saya ingin menggunakan indeks seperti Lucene yang menggunakan vektorisasi TF-IDF, peringkat BM25 dan BKTREE serta bola salju yang dibawa oleh dan stopword di sisi klien.
Saya ingin menghasilkan indeks pencarian baik di sisi klien atau sisi server (dan menghidrasi kembali/menggunakannya kembali pada klien atau sisi server). Informasi negara harus kecil dan terkompresi.
Pencarian teks lengkap harus cepat dan efisien, tidak mengarah ke banyak positive palsu atau negatif palsu.
Mesin pencari harus dapat mengambil kembali dan mencari di metadata yang mungkin terkait dengan setiap dokumen.
Mesin pencari harus dapat menghapus/memperbarui dokumen indeksnya.
Negara harus terhidratable.

Fitur

✅ Full-Text Search : Provides the ability to perform a comprehensive text-based search over a large collection of documents.
✅ Multilingual Support : Supports multiple languages for indexing and searching documents and automatic language detection for input text.
✅ Text Processing : Includes text transformation operations like converting to lower case, splitting by words, snowball stemming (Dr. Martin Porter), and stopword removal.
✅ Document Indexing : Allows adding of documents to the index along with metadata to make them searchable. Penghapusan Dokumen: Menyediakan fungsionalitas untuk menghapus dokumen tertentu dari indeks berdasarkan ID -nya.
✅ Search Query Processing : Processes search queries in the same way as document text to ensure a consistent matching algorithm.
✅ Relevance Scoring with BM25 Algorithm : Uses the BM25 algorithm for relevance scoring of documents against search queries.
✅ Fuzzy Matching with BK-Tree : Uses a BK-Tree structure to perform fuzzy matching, ie, to find words in the index that are similar to the search terms.
✅ Term Frequency-Inverse Document Frequency (TF-IDF) Weighting : Uses TF-IDF to weight and rank the indexed words based on their importance in the document and rarity in the overall document set.
✅ State Hydration and Dehydration : Provides functionality to save (dehydrate) the state of the search engine to a compressed format, or to restore (hydrate) it from a previously saved state either locally or remotely.
✅ Damerau-Levenshtein Distance Calculation : Includes a function to calculate the Damerau-Levenshtein distance, ie, the minimum number of operations (insertions, deletions, substitutions, transposition) required to change one word into another.
✅ Phonetic Scoring : Uses language-specific phonetic algorithms such as Double Metaphone and Koelner Phonetik as a tie breaker when Damerau-Levenshtein Distance is equal for two matches.
✅ Document ID Generation : Generates a unique ID for each document based on its text.
✅ Automatic Stop Word selection : Selects the best default stop words per language supported.
✅ Currently supports only: en , de , fr , es , ja
✅ Mendukung UTF8
✅ Tersedia sebagai API sederhana
✅ Just 8 KiB nano sized (ESM, gizpped, base library)
✅ Ketergantungan nol!
✅ Pohon-bergetar dan bebas efek samping
✅ Dukungan TypeScript kelas satu
✅ diuji dengan baik menggunakan tes unit jester

Contoh penggunaan

Pengaturan

yarn: yarn add clientside-search
npm: npm install clientside-search

Esm

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

Commonjs

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Peta jalan

Dukungan Bahasa Asia Tingkat Lanjut:
- Support for Chinese using Jieba
  - Tidak ada bktree, tapi perbandingan n-gram
  - TF-IDF berbasis karakter
  - Nonaktifkan Stemming
  - misalnya kesamaan jaccard
- Korea
  - Tidak ada bktree, tapi perbandingan n-gram
  - Jarak Jamo Levenshtein
  - Tf-idf

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-12
ukuran 506.42KB
Berasal dari Github

Aplikasi Terkait

Pencarian Kata 800

2024-11-08
azure search python samples

2024-11-05
Game Puzzle Kata Pencarian Kata Versi Terbaru

2024-07-11
Pencarian Kata untuk permainan anak-anak versi terbaru

2023-10-08
Mesin Pencari Hanfox

2012-03-15
Liehuo! Cari pencarian bahasa Inggris

2011-01-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua