Unduh jpreprocess - Unduh Kode Sumber jpreprocess

jpreprocess

Kode Sumber AI

v0.10.0

Unduh

JPreprocess

Ini mem -parsing kalimat Jepang dan menghasilkan label konteks penuh.

Ini adalah penulisan ulang bagian preprocessing dari OpenJtalk (selain mesin HTS) menggunakan karat.

Tujuan dan kebijakan

Alih -alih hanya mentransfer struktur OpenJtalk, itu dirancang agar mudah dibaca dan ditulis.
Sementara mengurangi ukuran file kamus dengan format kamus sendiri, ia juga menggunakan kamus tradisional "semua informasi sebagai string".
- Tidak ada yang kompatibel dengan kamus mecab itu sendiri, tetapi Anda dapat menghasilkan kamus menggunakan file CSV yang sama seperti yang Anda gunakan untuk membangun kamus mecab.
Kecuali untuk beberapa fitur yang tampaknya bug, Anda bisa mendapatkan output yang persis sama (label konteks penuh) seperti OpenJtalk
- Misalnya, cara membaca "kata kerja tambahan khusus" dan membingungkan 2, 2, 3 digit angka terpisah berbeda dari OpenJtalk.
- Meskipun tidak menghilangkan penambahan fitur baru, kami ingin memastikan bahwa masih ada cara untuk mendapatkan output yang sama seperti OpenJtalk menggunakan opsi, versi, fitur, dll.
Repositori ini tidak menangani mesin HTS
- Ini mendukung penciptaan label konteks penuh, tetapi di luar itu, ia berada di luar ruang lingkup repositori ini.
- Sebuah proyek untuk menulis ulang mesin HTS dengan karat dapat ditemukan di jprocrocess/jbonsai.

Peti

JPreprocess

Itu adalah antarmuka utama. Ini adalah pembungkus untuk Lindera, jprocrocess-njd, jprocrocess-jpcommon, dan banyak lagi. Kata-kata dalam hasil analisis disimpan dalam struktur data yang ditentukan oleh JProcrocess-core.

contoh:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

JPreprocess-core

Ini mencakup struktur data seperti pengucapan, kata -kata, bagian dari bicara, JPCommon, dan fungsi dan struktur terkait lainnya yang mewakili kesalahan. pos adalah akronim untuk bagian dari pidato dan mewakili "bagian dari pidato."

JPreprocess-Dictionary

Memuat Kata Kamus yang Dihasilkan oleh JPreprocess-Dictionary-Builder ke dalam memori, memungkinkan kata-kata dicari.

Pada saat ini, format kamus akan ditentukan secara otomatis.

JPreprocess-Dictionary-Builder

Kamus asli berada dalam format CSV yang sama dengan Mecab, tetapi Anda perlu menghasilkan kamus khusus sebelumnya sehingga dapat dianalisis dengan kecepatan tinggi dengan Lindera.

Ini dibuat berdasarkan Lindera-Ipadic-Builder Lindera, tetapi pembangun-Diksi-JProcrocess juga mem-parsing string terlebih dahulu, dan dapat menghasilkan kamus (Kamus JPreprocess) yang dapat diproses langsung dengan JPreprocess.

jprocess-naist-jdic

Buat kamus untuk JPreprocess menggunakan kamus yang dikirimkan dengan OpenJtalk. Digunakan untuk fitur naist-jdic dari JProcrocess Crate.

Perhatikan bahwa jika Anda mengaktifkan fitur naist-jdic dan menyertakan peti ini, perlu beberapa menit untuk dibangun.

JPreprocess-njd

Ini mendefinisikan struktur NJDNode dan NJD di OpenJtalk, dan melakukan pemrosesan konversi untuk NJD.

Secara khusus, itu mengubah pembacaan angka (misalnya, "10.120" menjadi "Ichiman hyakuniju") dan memperkirakan posisi aksen.

JPreprocess-jpCommon

Ini mendefinisikan struktur JPCommonLabel di OpenJtalk, dan mengubahnya dari NJD ke JPCommon dan kemudian JPCommon menjadi label konteks penuh.

JPreprocess-Window

Menerapkan jendela yang dapat berubah yang digunakan dalam proses konversi JPreprocess-NJD.

Hak Cipta

Perangkat lunak ini termasuk kode sumber dari:

OpenJtalk. Hak Cipta (C) 2008-2016 Institut Nagoya Departemen Teknologi Ilmu Komputer
Lindera. Hak Cipta (C) 2019 oleh Penulis Proyek
YADA: Lainnya-double-array.

Meskipun repositori ini memiliki file CodeOwners, itu tidak berarti bahwa pengembang yang terdaftar dalam file CodeOwners memiliki hak cipta untuk semua file dalam repositori ini. Hak cipta tercantum dalam pemberitahuan atau file lisensi, dan file CodeOwners hanya untuk peninjauan kode.