jpreprocess download jpreprocess源代碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>Ai源碼

jpreprocess

Ai源碼

v0.10.0

下載

jpreprocess

它解析日語句子並生成完整的上下文標籤。

這是使用Rust的OpenJtalk（HTS發動機除外）的預處理部分的重寫。

目標和政策

它不僅僅是傳輸openjtalk結構，而是旨在盡可能易於讀寫。
同時，使用自己的字典格式縮小了字典文件的大小，它還使用傳統的“所有信息作為字符串”字典。
- 與MeCab字典本身都不兼容，但是您可以使用與構建MeCab詞典相同的CSV文件生成字典。
除某些似乎是錯誤的功能外，您可以獲得與OpenJtalk完全相同的輸出（完整上下文標籤）
- 例如，閱讀“特殊輔助動詞”和使2、2、3位分隔數字混淆的方法與OpenJtalk不同。
- 儘管它不會消除新功能的添加，但我們要確保仍然有一種使用選項，版本，功能等獲得與OpenJtalk相同輸出的方法。
該存儲庫無法處理HTS引擎
- 它支持創建完整的上下文標籤，但除此之外，它超出了此存儲庫的範圍。
- 可以在JPReprocess/jbonsai找到一個用Rust重寫HTS引擎的項目。

板條箱

jpreprocess

它是主要接口。它是Lindera，JpreProcess-NJD，JPReprocess-jpcommon等的包裝紙。分析結果中的單詞保留在JPReprocess核心定義的數據結構中。

例子：

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

jpreprocess核

它包括發音，單詞，語音部分，jpcommon的部分以及代表錯誤的其他相關功能和結構等數據結構。 pos是演講部分的首字母縮寫，代表“言語的一部分”。

jpreprocess-dictionary

將jpreprocess-dictionary-builder生成的單詞詞典加載到內存中，從而可以搜索單詞。

目前，將自動確定字典格式。

jpreprocess-dictionary-builder

原始詞典與MeCab的CSV格式相同，但是您需要提前生成專用詞典，以便可以與Lindera高速分析。

它是基於Lindera的Lindera-ipadic-Builder創建的，但是JPReCrecess-dictionary-Builder也提前解析了字符串，並且可以生成一個可以直接與JPreProcess一起處理的字典（JPreProcess Dictionary）。

jpreprocess-naist-jdic

使用用OpenJtalk發貨的字典生成jpreprocess的字典。用於JpreProcess Crate的naist-jdic特徵。

請注意，如果啟用naist-jdic功能並包括此板條箱，則需要幾分鐘才能構建。

jpreprocess-njd

它在OpenJtalk中定義了NJDNODE和NJD的結構，並為NJD執行轉換處理。

具體而言，它將數字的讀數（例如，“ 10,120”轉換為“ Ichiman Hyakuniju”），並估計了口音位置。

jpreprocess-jpcommon

它在OpenJtalk中定義了JPCommonLabel的結構，並將其從NJD轉換為JPCommon，然後將JPCommon轉換為完整上下文標籤。

jpreprocess-window

在JPReprocess-NJD轉換過程中實現一個可變窗口。

版權

該軟件包括以下來自以下的源代碼

OpenJtalk。版權（C）2008-2016名古屋技術學院計算機科學系
Lindera。項目作者的版權（c）2019
Yada：另一個雙陣列。

儘管該存儲庫中有復論者文件，但這並不一定意味著在清算員文件中列出的開發人員具有此存儲庫中所有文件的版權。版權在通知或許可證文件中列出，而計量師文件僅用於代碼審核。

執照

BSD-3-C-sause

展開

附加信息

版本 v0.10.0
類型 Ai源碼
更新時間 2025-08-24
大小 1.92MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部