它解析日语句子并生成完整的上下文标签。
这是使用Rust的OpenJtalk(HTS发动机除外)的预处理部分的重写。
它是主要接口。它是Lindera,JpreProcess-NJD,JPReprocess-jpcommon等的包装纸。分析结果中的单词保留在JPReprocess核心定义的数据结构中。
例子:
use jpreprocess :: * ;
let config = JPreprocessConfig {
dictionary : SystemDictionaryConfig :: File ( path ) ,
user_dictionary : None ,
} ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;
let jpcommon_label = jpreprocess
. extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します." ) ? ;
assert_eq ! (
jpcommon_label [ 2 ] . to_string ( ) ,
concat! (
"sil^n-i+h=o" ,
"/A:-3+1+7" ,
"/B:xx-xx_xx" ,
"/C:02_xx+xx" ,
"/D:02+xx_xx" ,
"/E:xx_xx!xx_xx-xx" ,
"/F:7_4#0_xx@1_3|1_12" ,
"/G:4_4%0_xx_1" ,
"/H:xx_xx" ,
"/I:3-12@1+2&1-8|1+41" ,
"/J:5_29" ,
"/K:2+8-41"
)
) ;它包括发音,单词,语音部分,jpcommon的部分以及代表错误的其他相关功能和结构等数据结构。 pos是演讲部分的首字母缩写,代表“言语的一部分”。
将jpreprocess-dictionary-builder生成的单词词典加载到内存中,从而可以搜索单词。
目前,将自动确定字典格式。
原始词典与MeCab的CSV格式相同,但是您需要提前生成专用词典,以便可以与Lindera高速分析。
它是基于Lindera的Lindera-ipadic-Builder创建的,但是JPReCrecess-dictionary-Builder也提前解析了字符串,并且可以生成一个可以直接与JPreProcess一起处理的字典(JPreProcess Dictionary)。
使用用OpenJtalk发货的字典生成jpreprocess的字典。用于JpreProcess Crate的naist-jdic特征。
请注意,如果启用naist-jdic功能并包括此板条箱,则需要几分钟才能构建。
它在OpenJtalk中定义了NJDNODE和NJD的结构,并为NJD执行转换处理。
具体而言,它将数字的读数(例如,“ 10,120”转换为“ Ichiman Hyakuniju”),并估计了口音位置。
它在OpenJtalk中定义了JPCommonLabel的结构,并将其从NJD转换为JPCommon,然后将JPCommon转换为完整上下文标签。
在JPReprocess-NJD转换过程中实现一个可变窗口。
该软件包括以下来自以下的源代码
尽管该存储库中有复论者文件,但这并不一定意味着在清算员文件中列出的开发人员具有此存储库中所有文件的版权。版权在通知或许可证文件中列出,而计量师文件仅用于代码审核。
BSD-3-C-sause