ngram search -Such -Download - ngram search Source Code Download

ngram search

Anderer Quellcode

1.0.0

Herunterladen

Diese Bibliothek ermöglicht die Indexierung vieler Zeichenfolgen in eine Datei und dann effizient Fuzzy-Matching-Zeichenfolgen gegen das, was indiziert wurde.

Derzeit ist die Struktur im Speicher eingebaut, bevor sie in die Datei geschrieben wird, so dass Phase viel RAM verwendet.

Die String -Suche erfolgt aus der Datei und erfordert wenig Speicher.

Der Index ist eine Trie -Struktur, in der Trigramme nachschlagen können. Die Ergebnisse für jedes Trigramm der Eingabe werden übereinstimmen und sortiert, um die ähnlichsten Zeichenfolgen zu erhalten.

Beispiel (Rost):

 // Build index
let mut builder = Ngrams :: builder ( ) ;
builder . add ( "spam" , 0 ) ;
builder . add ( "ham" , 1 ) ;
builder . add ( "mam" , 2 ) ;

// Write it to a file
let mut file = BufWriter :: new ( File :: create ( path ) . unwrap ( ) ) ;
builder . write ( & mut file ) . unwrap ( ) ;

// Search our index
let mut data = Ngrams :: open ( path ) . unwrap ( ) ;
assert_eq ! (
    data . search ( "ham" , 0.24 ) . unwrap ( ) ,
    vec! [
        ( 1 , 1.0 ) , // "ham" is an exact match
        ( 2 , 0.25 ) , // "mam" is close
    ] ,
) ;
assert_eq ! (
    data . search ( "spa" , 0.2 ) . unwrap ( ) ,
    vec! [
        ( 0 , 0.375 ) , // "spam" is close
    ] ,
) ;

Beispiel (Python):

 > >> from ngram_search import Ngrams
> >> ngrams = Ngrams ( path )
> >> ngrams . search ( "ham" , 0.24 )
[( 0 , 1.0 ), ( 2 , 0.25 )]
> >> ngrams . search ( "spa" , 0.2 )
[( 0 , 0.375 )]