它解析日語句子並生成完整的上下文標籤。
這是使用Rust的OpenJtalk(HTS發動機除外)的預處理部分的重寫。
它是主要接口。它是Lindera,JpreProcess-NJD,JPReprocess-jpcommon等的包裝紙。分析結果中的單詞保留在JPReprocess核心定義的數據結構中。
例子:
use jpreprocess :: * ;
let config = JPreprocessConfig {
dictionary : SystemDictionaryConfig :: File ( path ) ,
user_dictionary : None ,
} ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;
let jpcommon_label = jpreprocess
. extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します." ) ? ;
assert_eq ! (
jpcommon_label [ 2 ] . to_string ( ) ,
concat! (
"sil^n-i+h=o" ,
"/A:-3+1+7" ,
"/B:xx-xx_xx" ,
"/C:02_xx+xx" ,
"/D:02+xx_xx" ,
"/E:xx_xx!xx_xx-xx" ,
"/F:7_4#0_xx@1_3|1_12" ,
"/G:4_4%0_xx_1" ,
"/H:xx_xx" ,
"/I:3-12@1+2&1-8|1+41" ,
"/J:5_29" ,
"/K:2+8-41"
)
) ;它包括發音,單詞,語音部分,jpcommon的部分以及代表錯誤的其他相關功能和結構等數據結構。 pos是演講部分的首字母縮寫,代表“言語的一部分”。
將jpreprocess-dictionary-builder生成的單詞詞典加載到內存中,從而可以搜索單詞。
目前,將自動確定字典格式。
原始詞典與MeCab的CSV格式相同,但是您需要提前生成專用詞典,以便可以與Lindera高速分析。
它是基於Lindera的Lindera-ipadic-Builder創建的,但是JPReCrecess-dictionary-Builder也提前解析了字符串,並且可以生成一個可以直接與JPreProcess一起處理的字典(JPreProcess Dictionary)。
使用用OpenJtalk發貨的字典生成jpreprocess的字典。用於JpreProcess Crate的naist-jdic特徵。
請注意,如果啟用naist-jdic功能並包括此板條箱,則需要幾分鐘才能構建。
它在OpenJtalk中定義了NJDNODE和NJD的結構,並為NJD執行轉換處理。
具體而言,它將數字的讀數(例如,“ 10,120”轉換為“ Ichiman Hyakuniju”),並估計了口音位置。
它在OpenJtalk中定義了JPCommonLabel的結構,並將其從NJD轉換為JPCommon,然後將JPCommon轉換為完整上下文標籤。
在JPReprocess-NJD轉換過程中實現一個可變窗口。
該軟件包括以下來自以下的源代碼
儘管該存儲庫中有復論者文件,但這並不一定意味著在清算員文件中列出的開發人員具有此存儲庫中所有文件的版權。版權在通知或許可證文件中列出,而計量師文件僅用於代碼審核。
BSD-3-C-sause