sqlite3 ngram tokenizer
1.0.0
このトークン剤は、Unicode61(デフォルト)のような別のトークネイザーの後ろに動作します。
例:
const sqlite = require ( 'better-sqlite3' ) ;
const tokenizer = require ( 'sqlite3-ngram-tokenizer' ) ;
const db = sqlite ( ':memory:' ) ;
db . loadExtension ( tokenizer . pluginPath ) ; // pluginPath does not contain extension
db . exec ( `
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = 'ngram');
` ) ;それは、ラテン語を2グラムで別々の最初の文字で象徴する: "letter" => [l le et tt te er]であるため、 "let"とは一致しませんが、 "etter"ではありません。
ラチン以外の単語の場合、1グラムでそれらをトークン化します。非ラチン語でString.includes()のように機能します。
他のトークンザーを指定できます
-- porter tokenizer also works behind another tokenizer
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = ' ngram porter unicode61 remove_diacritics 1 ' );知らせ
highlight()ポータートークネイザーの背後で予想どおりに機能しない場合があります。