sqlite3 ngram tokenizer
1.0.0
이 토큰 화기는 Unicode61 (기본값)과 같은 다른 토큰 화기 뒤에서 작동합니다.
예:
const sqlite = require ( 'better-sqlite3' ) ;
const tokenizer = require ( 'sqlite3-ngram-tokenizer' ) ;
const db = sqlite ( ':memory:' ) ;
db . loadExtension ( tokenizer . pluginPath ) ; // pluginPath does not contain extension
db . exec ( `
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = 'ngram');
` ) ; "letter" => [l le et tt te er] 함께 2 그램으로 라틴어 단어를 2 그램으로 토큰 화하므로 "let" "etter" 가 아님과 일치합니다.
라틴어가 아닌 단어의 경우 1 그램으로 토큰을 발사합니다. 비 라틴어 단어에서 String.includes() 처럼 수행됩니다.
같은 다른 토큰 화제를 지정할 수 있습니다
-- porter tokenizer also works behind another tokenizer
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = ' ngram porter unicode61 remove_diacritics 1 ' );알아채다
highlight() 포터 토큰 화기 뒤에서 예상대로 작동하지 않을 수 있습니다.