jpreprocess 다운로드 jpreprocess 소스 코드 다운로드

jpreprocess

AI 소스 코드

v0.10.0

다운로드

JPREPROCESS

일본 문장을 구문 분석하고 전체 컨텍스트 레이블을 생성합니다.

이것은 Rust를 사용하여 OpenJtalk (HTS 엔진 이외)의 전처리 부분을 다시 작성 한 것입니다.

목표와 정책

OpenJtalk 구조를 전송하는 대신 최대한 읽고 쓰기 쉬운 것으로 설계되었습니다.
자체 사전 형식의 사전 파일의 크기를 줄이지 만 기존의 "모든 정보를 문자열"사전도 사용합니다.
- Mecab 사전 자체와 호환되지 않지만 Mecab 사전을 구축하는 데 사용하는 것과 동일한 CSV 파일을 사용하여 사전을 생성 할 수 있습니다.
버그로 보이는 일부 기능을 제외하고는 OpenJtalk와 정확히 동일한 출력 (전체 컨텍스트 레이블)을 얻을 수 있습니다.
- 예를 들어, "특수 보조 동사"를 읽고 혼란스러운 2, 2, 3 자리 분리 된 숫자는 OpenJtalk와 다릅니다.
- 새로운 기능의 추가를 제거하지는 않지만 옵션, 버전, 기능 등을 사용하여 OpenJtalk와 동일한 출력을 얻을 수있는 방법이 여전히 있는지 확인하고 싶습니다.
이 저장소는 HTS 엔진을 처리하지 않습니다
- 전체 컨텍스트 레이블의 생성을 지원하지만 그 이상 으로이 저장소의 범위를 벗어납니다.
- 녹이로 HTS 엔진을 다시 작성하는 프로젝트는 JPReprocess/JBonsai에서 찾을 수 있습니다.

상자

JPREPROCESS

메인 인터페이스입니다. Lindera, JPreprocess-NJD, JPReprocess-JPCommon 등의 래퍼입니다. 분석 결과의 단어는 JPREPROCESS-CORE에 의해 정의 된 데이터 구조에 보관됩니다.

예:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

JPREPROCESS-CORE

여기에는 발음, 단어, 음성 부분, JPCommon 및 오류를 나타내는 기타 관련 기능 및 구조와 같은 데이터 구조가 포함됩니다. pos 는 연설의 일부의 약어이며 "연설의 일부"를 나타냅니다.

JPREPROCESS 사전

jpreprocess-dictionary-builder에 의해 생성 된 단어를 메모리에로드하여 단어를 검색 할 수 있습니다.

현재 사전 형식이 자동으로 결정됩니다.

JPREPROCESS 사전 빌더

원래 사전은 MECAB와 동일한 CSV 형식이지만 Lindera와 고속으로 분석 할 수 있도록 전용 사전을 미리 생성해야합니다.

그것은 Lindera의 Lindera-Ipadic-Builder를 기반으로 만들어졌지만 JPreprocess-Priceedary-Builder는 현을 미리 구문 분석하고 JPReprocess로 직접 처리 할 수있는 사전 (JPReprocess Dictionary)을 생성 할 수 있습니다.