Téléchargement probly search - Téléchargement du code source probly search

probly search

Autre code source

2.0.1

Télécharger

Probly-Search ·

Une bibliothèque de recherche en texte intégral, écrite en rouille, optimisée pour la vitesse d'insertion, qui fournit un contrôle total sur les calculs de notation.

Cela commence initialement comme un port de la bibliothèque de nœuds NDX.

Démo

Recette (titre) Recherche avec des documents 50K.

https://quantleaf.github.io/probly-search-demo/

Caractéristiques

Trois façons de faire un score
- Fonction de classement BM25 pour classer les documents correspondants. La même fonction de classement utilisée par défaut dans Lucene> = 6.0.0.
- zéro à un , une fonction de notation unique de bibliothèque qui fournit un score normalisé qui est limité par 0 et 1. Perfect pour faire correspondre les titres / étiquettes avec des requêtes.
- Capacité à personnaliser pleinement votre propre fonction de notation en mettant en œuvre le trait ScoreCalculator .
Index inversé dynamique basé sur Trie.
Plusieurs champs Indexation et recherche de texte intégral.
Score par champ augmentant.
Tokenizer configurable.
Requêtes de texte libre avec extension de requête.
Allocation rapide, mais suppression latente.
Wasm compatible

Documentation

Ajout, supprimer et rechercher des documents

Voir les tests d'intégration.

Utilisez cette bibliothèque avec Wasm

Voir le projet de démonstration de recherche de recettes

Un exemple de base

Création d'un index avec un document qui a 2 champs. Remettre en question des documents et supprimer un document.

 use std :: collections :: HashSet ;
use probly_search :: {
    index :: Index ,
    query :: {
        score :: default :: { bm25 , zero_to_one } ,
        QueryResult ,
    } ,
} ;

// A white space tokenizer
fn tokenizer ( s : & str ) -> Vec < Cow < str > > {
     s . split ( ' ' ) . map ( Cow :: from ) . collect :: < Vec < _ > > ( )
}

// We have to provide extraction functions for the fields we want to index

// Title
fn title_extract ( d : & Doc ) -> Vec < & str > {
    vec ! [ d.title.as_str ( ) ]
}

// Description
fn description_extract ( d : & Doc ) -> Vec < & str > {
    vec ! [ d.description.as_str ( ) ]
}

// Create index with 2 fields
let mut index = Index :: < usize > :: new ( 2 ) ;

// Create docs from a custom Doc struct
let doc_1 = Doc {
    id : 0 ,
    title : "abc" . to_string ( ) ,
    description : "dfg" . to_string ( ) ,
} ;

let doc_2 = Doc {
    id : 1 ,
    title : "dfgh" . to_string ( ) ,
    description : "abcd" . to_string ( ) ,
} ;

// Add documents to index
index . add_document (
    & [ title_extract , description_extract ] ,
    tokenizer ,
    doc_1 . id ,
    & doc_1 ,
) ;

index . add_document (
    & [ title_extract , description_extract ] ,
    tokenizer ,
    doc_2 . id ,
    & doc_2 ,
) ;

// Search, expected 2 results
let mut result = index . query (
    & "abc" ,
    & mut bm25 :: new ( ) ,
    tokenizer ,
    & [ 1. , 1. ] ,
) ;
assert_eq ! ( result.len ( ) , 2 ) ;
assert_eq ! (
    result [ 0 ] ,
    QueryResult {
        key: 0 ,
        score: 0.6931471805599453
    }
) ;
assert_eq ! (
    result [ 1 ] ,
    QueryResult {
        key: 1 ,
        score: 0.28104699650060755
    }
) ;

// Remove documents from index
index . remove_document ( doc_1 . id ) ;

// Vacuum to remove completely
index . vacuum ( ) ;

// Search, expect 1 result
result = index . query (
    & "abc" ,
    & mut bm25 :: new ( ) ,
    tokenizer ,
    & [ 1. , 1. ] ,
) ;
assert_eq ! ( result.len ( ) , 1 ) ;
assert_eq ! (
    result [ 0 ] ,
    QueryResult {
        key: 1 ,
        score: 0.1166450426074421
    }
) ;