jpreprocess Скачать - jpreprocess SUSTERCOD Скачать

jpreprocess

AI Исходный код

v0.10.0

Скачать

jpreprocess

Он анализирует японские предложения и генерирует полные контекстные этикетки.

Это переписывание предварительной обработки части OpenJtalk (кроме двигателя HTS) с использованием ржавчины.

Цели и политика

Вместо того, чтобы просто передавать структуру OpenJTalk, она предназначена для того, чтобы быть как можно проще читать и писать.
При уменьшении размера словарных файлов с помощью собственного словаря он также использует традиционный словарь «вся информация как строки».
- Ни один из них не совместим с самим словарем Mecab, но вы можете генерировать словарь, используя тот же файл CSV, который вы бы использовали для создания словаря MECAB.
За исключением некоторых функций, которые, кажется, являются ошибками, вы можете получить точно такой же вывод (полный контекст), что и OpenJtalk
- Например, способ прочитать «специальные вспомогательные глаголы» и запутанные 2, 2, 3 цифры, разделенные числа, отличается от OpenJtalk.
- Хотя это не устраняет добавление новых функций, мы хотели бы убедиться, что все еще есть способ получить тот же выход, что и OpenJtalk, используя параметры, версии, функции и т. Д.
Этот репозиторий не обрабатывает двигатель HTS
- Он поддерживает создание полных контекстных ярлыков, но помимо этого он выходит за рамки этого репозитория.
- Проект по переписыванию двигателя HTS с ржавчиной можно найти в JPREPOCESS/JBONSAI.

Ящики

jpreprocess

Это основной интерфейс. Это обертка для Lindera, Jpreprocess-NJD, JPreProcess-JpCommon и многое другое. Слова в результате анализа хранятся в структуре данных, определенной JPREProcess-Core.

пример:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

JPREPROCESS-CORE

Он включает в себя структуры данных, такие как произношение, слова, части речи, JPCommon и другие связанные функции и структуры, которые представляют ошибки. pos является аббревиатурой для части речи и представляет «часть речи».

JPREPROCESS-DICTIONARY

Загружает словарь слова, сгенерированного JPREPROCESS-Dictionary-Builder, в память, позволяя искать слова.

В настоящее время формат словаря будет автоматически определен.

JPREPROCESS-Dictionary-Builder

Первоначальный словарь находится в том же формате CSV, что и Mecab, но вам необходимо заранее генерировать выделенный словарь, чтобы его можно было проанализировать на высокой скорости с Lindera.

Он создан на основе Lindera-Ipadic-Builder, но JPREPROCESS-Dictionary-Builder также планирует строки заранее и может генерировать словарь (словарь JPREPROCESS), который может обрабатывать непосредственно с JPREPOCESS.

jpreprocess-naist-jdic

Создайте словарь для jpreprocess, используя словарь, который был отправлен с OpenJtalk. Используется для naist-jdic функции JPREPROCESS CRATE.

Обратите внимание, что если вы включите функцию naist-jdic и включите этот ящик, на его строительство потребуется несколько минут.

jpreprocess-njd

Он определяет структуру NJDNode и NJD в OpenJTalk и выполняет обработку преобразования для NJD.

В частности, он преобразует чтение чисел (например, «10,120» в «Ичиман Хьякуниджу») и оценивает позицию акцента.

jpreprocess-jpcommon

Он определяет структуру jpcommonlabel в OpenJtalk и преобразует ее из NJD в JPCommon, а затем JPCommon в полные контекстные этикетки.

Jpreprocess-Window

Реализуйте изменчивое окно, используемое в процессе преобразования JPREPOCESS-NJD.

Авторские права

Это программное обеспечение включает исходный код из:

Яда: Еще одна двойная арачка.

Хотя этот репозиторий имеет файл кодов, он не обязательно означает, что разработчики, перечисленные в файле CodeOwners, имеют авторское право на все файлы в этом хранилище. Авторские права перечислены в файлах уведомления или лицензии, а файл CodeOwners предназначен только для просмотра кода.