Скачать clientside search - Загрузка исходного кода clientside search .

clientside search

Другой исходный код

1.0.0

Скачать

клиентские поиски

«Почему у нас уже нет приличной, похожей на Lucene Client Side (In-Browser) поисковой системы?»

Эта библиотека предоставляет функции полнотекстового поиска, подобные Lucene для браузера и Node.js.

В этой поисковой системе используются несколько расширенных алгоритмов для обеспечения надежного и эффективного поиска в большой коллекции документов. Используемые алгоритмы включают TF-IDF для взвешивания и ранжирования, BK-Tree для нечеткого соответствия, BM25 для оценки актуальности и расстояние Damerau-levenshtein для измерения расстояния редактирования между поисковыми терминами. Поисковая система поддерживает несколько языков и использует Stemming и удаление стоп -слов для повышения его эффективности. Он также поддерживает хранение и поиск метаданных, связанных с документами. Вы можете генерировать индекс из текстового корпуса и метаданных как на стороне клиента, так и на сервере. Вы можете увлажнить и повторно гидратировать (повторно использовать предварительно сгенерированный) индекс также на стороне клиента и сервера.

Пользовательские истории разработчиков

Я хочу использовать индекс, похожий на Lucene, который использует векторизацию TF-IDF, рейтинг BM25 и BKTree, а также снежный ком и остановки на стороне клиента.
Я хочу генерировать индекс поиска на стороне клиента или на стороне сервера (и повторно гидрата/повторно используйте его на клиенте или на стороне сервера). Информация о состоянии должна быть небольшой и сжатой.
Полнотекстовый поиск должен быть быстрым и эффективным, а не приводит к множеству ложноположительных или ложных негат.
Поисковая система должна быть в состоянии возвращать и искать в метаданных, которые могут быть связаны с каждым документом.
Поисковая система должна иметь возможность удалять/обновить документы INDEX.
Состояние должно быть увлажненным.

Функции

✅ Полнотекстовый поиск : обеспечивает возможность выполнять комплексный текстовый поиск над большой коллекцией документов.
✅ Многоязычная поддержка : поддерживает несколько языков для индексации и поиска документов и автоматического обнаружения языка для входного текста.
✅ Текстовая обработка : включает в себя операции трансформации текста, такие как преобразование в нижний чехол, расщепление слов, снежный ком (доктор Мартин Портер) и удаление стоп -слов.
✅ Индексирование документа : позволяет добавлять документы в индекс вместе с метадатами, чтобы сделать их доступными для поиска. Удаление документа: предоставляет функциональность для удаления конкретного документа из индекса на основе его идентификатора.
✅ Обработка запросов поиска : обрабатывает запросы поиска так же, как и текст документа, чтобы обеспечить последовательный алгоритм сопоставления.
✅ Оценка релевантности с алгоритмом BM25 : использует алгоритм BM25 для оценки документов по поисковым запросам.
✅ Нечеткое сопоставление с BK-Tree : использует структуру BK-дерево для выполнения нечеткого сопоставления, то есть найти слова в индексе, которые похожи на поисковые термины.
✅ Термины частоты частоты документов (TF-IDF) Веселье : использует TF-IDF для веса и ранжирует проиндексированные слова, основанные на их важности в документе и редкость в общем наборе документов.
✅ Гидратация и обезвоживание состояния : обеспечивает функциональность для сохранения (дегидрата) состояния поисковой системы в сжатый формат или восстановить (гидрат) из ранее сохраненного состояния локально или удаленно.
✅ Damerau-levenshtein Расчет расстояния : включает в себя функцию для расчета расстояния Damerau-levenshtein, то есть минимальное количество операций (вставки, удаления, замены, транспозиция), необходимое для изменения одного слова в другое.
✅ Фонетическая оценка : использует специфичные для языка фонетические алгоритмы, такие как Double Metahone и Koelner Phonetik в качестве выключателя галстука, когда расстояние Damerau-levenshtein одинаково для двух совпадений.
✅ Generation Generation идентификатор документа : генерирует уникальный идентификатор для каждого документа на основе его текста.
✅ Автоматический выбор слова : выбирает лучшие слова остановки по умолчанию на поддерживаемый язык.
✅ В настоящее время поддерживает только: en , de , fr , es , ja
✅ поддерживает UTF8
✅ Доступно как простой API
✅ Только 8 KiB нано -размер (ESM, Gizpped, базовая библиотека)
✅ нулевые зависимости!
✅ Древесины, свободные от дерева и побочные эффекты
✅ Поддержка TypeScript Первого класса
✅ Хорошо протестированные с использованием Jest Unit Tests

Пример использования

Настраивать

пряжа: yarn add clientside-search
NPM: npm install clientside-search

Эсм

 import { SearchEngine } from 'clientside-search'
import en from 'clientside-search/en'

// create a new instance of a search engine
const searchEngine = new SearchEngine ( en )

// add some text
const docId1 = searchEngine . addDocument ( 'The quick brown fox jumps over the lazy dog' )

// you can also add UTF8 text, and metadata
const docId2 = searchEngine . addDocument ( 'The quick brown fox jumps over the fence ✅' , {
  // metadata with index_ prefix will be indexed for search
  index_title : 'Fence' ,
  date : new Date ( ) ,
  author : 'John Doe' ,
} )

/**
 * {
 *   id:
 *   score: 1.34,
 *   metadata: { title: 'Fence', date: '2023-07-12 ...', author: 'John Doe' }
 * }
 */
const searchResult = searchEngine . search ( 'Fence' )

// if you want to persist the index state,
// hydratedState is a JSON string that you can persist
const hydratedState = searchEngine . hydrateState ( )

// PLEASE NOTE: The hydrated state does NOT contain the original input text
// It contains an optimized representation of the search index
// However, metadata is kept 1:1

// you can re-hydrate from that state anywhere,
// on the server or the client:
const hydratedEngine = SearchEngine . fromHydratedState ( hydratedState , en )

// equals: searchResult
const searchResultFromHydated = hydratedEngine . search ( 'Fence' )

Commonjs

 const { SearchEngine } = require ( 'clientside-search' )
const { en } = require ( 'clientside-search/en' )

// same API like ESM variant

Дорожная карта

Продвинутая азиатская поддержка языка:
- Поддержка китайца с помощью jieba
  - Нет bktree, но сравнение N-грамма
  - Основанный на персонажах TF-IDF
  - Отключить вытекание
  - Например, сходство Jaccard
- корейский
  - Нет bktree, но сравнение N-грамма
  - Джамо Левенштейн расстояние
  - TF-IDF

Расширять

Дополнительная информация