download probly search probly search

probly search

Outro código-fonte

2.0.1

Baixar

Propio-Search ·

Uma biblioteca de pesquisa de texto completo, escrito em Rust, otimizado para velocidade de inserção, que fornece controle total sobre os cálculos de pontuação.

Isso inicia inicialmente como uma porta da biblioteca de nós NDX.

Demonstração

Receita (título) Pesquise com 50k documentos.

https://quantleaf.github.io/probly-search-demo/

Características

Três maneiras de fazer a pontuação
- Função de classificação BM25 para classificar documentos correspondentes. A mesma função de classificação usada por padrão no Lucene> = 6.0.0.
- Zero-para-um , uma função de pontuação exclusiva da biblioteca que fornece uma pontuação normalizada que é limitada por 0 e 1. Perfeito para combinar títulos/etiquetas com consultas.
- Capacidade de personalizar totalmente sua própria função de pontuação, implicando o traço ScoreCalculator .
Índice invertido dinâmico baseado em trie.
Múltiplos campos de indexação e pesquisa de texto completo.
Pontuação por campo aumentando.
Tokenizer configurável.
Consultas de texto grátis com expansão de consulta.
Alocação rápida, mas exclusão latente.
WASM compatível

Documentação

Adicionando, removendo e pesquisando documentos

Veja testes de integração.

Use esta biblioteca com WASM

Veja o projeto de demonstração de pesquisa de receitas

Um exemplo básico

Criando um índice com um documento que possui 2 campos. Consulta documentos e remova um documento.

 use std :: collections :: HashSet ;
use probly_search :: {
    index :: Index ,
    query :: {
        score :: default :: { bm25 , zero_to_one } ,
        QueryResult ,
    } ,
} ;

// A white space tokenizer
fn tokenizer ( s : & str ) -> Vec < Cow < str > > {
     s . split ( ' ' ) . map ( Cow :: from ) . collect :: < Vec < _ > > ( )
}

// We have to provide extraction functions for the fields we want to index

// Title
fn title_extract ( d : & Doc ) -> Vec < & str > {
    vec ! [ d.title.as_str ( ) ]
}

// Description
fn description_extract ( d : & Doc ) -> Vec < & str > {
    vec ! [ d.description.as_str ( ) ]
}

// Create index with 2 fields
let mut index = Index :: < usize > :: new ( 2 ) ;

// Create docs from a custom Doc struct
let doc_1 = Doc {
    id : 0 ,
    title : "abc" . to_string ( ) ,
    description : "dfg" . to_string ( ) ,
} ;

let doc_2 = Doc {
    id : 1 ,
    title : "dfgh" . to_string ( ) ,
    description : "abcd" . to_string ( ) ,
} ;

// Add documents to index
index . add_document (
    & [ title_extract , description_extract ] ,
    tokenizer ,
    doc_1 . id ,
    & doc_1 ,
) ;

index . add_document (
    & [ title_extract , description_extract ] ,
    tokenizer ,
    doc_2 . id ,
    & doc_2 ,
) ;

// Search, expected 2 results
let mut result = index . query (
    & "abc" ,
    & mut bm25 :: new ( ) ,
    tokenizer ,
    & [ 1. , 1. ] ,
) ;
assert_eq ! ( result.len ( ) , 2 ) ;
assert_eq ! (
    result [ 0 ] ,
    QueryResult {
        key: 0 ,
        score: 0.6931471805599453
    }
) ;
assert_eq ! (
    result [ 1 ] ,
    QueryResult {
        key: 1 ,
        score: 0.28104699650060755
    }
) ;

// Remove documents from index
index . remove_document ( doc_1 . id ) ;

// Vacuum to remove completely
index . vacuum ( ) ;

// Search, expect 1 result
result = index . query (
    & "abc" ,
    & mut bm25 :: new ( ) ,
    tokenizer ,
    & [ 1. , 1. ] ,
) ;
assert_eq ! ( result.len ( ) , 1 ) ;
assert_eq ! (
    result [ 0 ] ,
    QueryResult {
        key: 1 ,
        score: 0.1166450426074421
    }
) ;