Ini mem -parsing kalimat Jepang dan menghasilkan label konteks penuh.
Ini adalah penulisan ulang bagian preprocessing dari OpenJtalk (selain mesin HTS) menggunakan karat.
Itu adalah antarmuka utama. Ini adalah pembungkus untuk Lindera, jprocrocess-njd, jprocrocess-jpcommon, dan banyak lagi. Kata-kata dalam hasil analisis disimpan dalam struktur data yang ditentukan oleh JProcrocess-core.
contoh:
use jpreprocess :: * ;
let config = JPreprocessConfig {
dictionary : SystemDictionaryConfig :: File ( path ) ,
user_dictionary : None ,
} ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;
let jpcommon_label = jpreprocess
. extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します." ) ? ;
assert_eq ! (
jpcommon_label [ 2 ] . to_string ( ) ,
concat! (
"sil^n-i+h=o" ,
"/A:-3+1+7" ,
"/B:xx-xx_xx" ,
"/C:02_xx+xx" ,
"/D:02+xx_xx" ,
"/E:xx_xx!xx_xx-xx" ,
"/F:7_4#0_xx@1_3|1_12" ,
"/G:4_4%0_xx_1" ,
"/H:xx_xx" ,
"/I:3-12@1+2&1-8|1+41" ,
"/J:5_29" ,
"/K:2+8-41"
)
) ; Ini mencakup struktur data seperti pengucapan, kata -kata, bagian dari bicara, JPCommon, dan fungsi dan struktur terkait lainnya yang mewakili kesalahan. pos adalah akronim untuk bagian dari pidato dan mewakili "bagian dari pidato."
Memuat Kata Kamus yang Dihasilkan oleh JPreprocess-Dictionary-Builder ke dalam memori, memungkinkan kata-kata dicari.
Pada saat ini, format kamus akan ditentukan secara otomatis.
Kamus asli berada dalam format CSV yang sama dengan Mecab, tetapi Anda perlu menghasilkan kamus khusus sebelumnya sehingga dapat dianalisis dengan kecepatan tinggi dengan Lindera.
Ini dibuat berdasarkan Lindera-Ipadic-Builder Lindera, tetapi pembangun-Diksi-JProcrocess juga mem-parsing string terlebih dahulu, dan dapat menghasilkan kamus (Kamus JPreprocess) yang dapat diproses langsung dengan JPreprocess.
Buat kamus untuk JPreprocess menggunakan kamus yang dikirimkan dengan OpenJtalk. Digunakan untuk fitur naist-jdic dari JProcrocess Crate.
Perhatikan bahwa jika Anda mengaktifkan fitur naist-jdic dan menyertakan peti ini, perlu beberapa menit untuk dibangun.
Ini mendefinisikan struktur NJDNode dan NJD di OpenJtalk, dan melakukan pemrosesan konversi untuk NJD.
Secara khusus, itu mengubah pembacaan angka (misalnya, "10.120" menjadi "Ichiman hyakuniju") dan memperkirakan posisi aksen.
Ini mendefinisikan struktur JPCommonLabel di OpenJtalk, dan mengubahnya dari NJD ke JPCommon dan kemudian JPCommon menjadi label konteks penuh.
Menerapkan jendela yang dapat berubah yang digunakan dalam proses konversi JPreprocess-NJD.
Perangkat lunak ini termasuk kode sumber dari:
Meskipun repositori ini memiliki file CodeOwners, itu tidak berarti bahwa pengembang yang terdaftar dalam file CodeOwners memiliki hak cipta untuk semua file dalam repositori ini. Hak cipta tercantum dalam pemberitahuan atau file lisensi, dan file CodeOwners hanya untuk peninjauan kode.
BSD-3-Clause