Téléchargement jpreprocess - Téléchargement du code source jpreprocess

jpreprocess

Code Source AI

v0.10.0

Télécharger

jpreprocess

Il analyse les phrases japonaises et génère des étiquettes de contexte complètes.

Il s'agit d'une réécriture de la partie de prétraitement de OpenJtalk (autre que le moteur HTS) en utilisant la rouille.

Objectifs et politiques

Au lieu de simplement transférer la structure OpenJtalk, il est conçu pour être aussi facile à lire et à écrire que possible.
Tout en réduisant la taille des fichiers de dictionnaire avec son propre format de dictionnaire, il utilise également le dictionnaire traditionnel "All Information as Strings".
- Ni l'un ni l'autre n'est compatible avec le dictionnaire MECAB lui-même, mais vous pouvez générer un dictionnaire en utilisant le même fichier CSV que vous utiliseriez pour construire un dictionnaire MECAB.
À l'exception de certaines fonctionnalités qui semblent être des bogues, vous pouvez obtenir exactement la même sortie (étiquette de contexte complète) qu'OpenJtalk
- Par exemple, la façon de lire les «verbes auxiliaires spéciaux» et les nombres séparés confus 2, 2, 3 chiffres est différent d'OpenJtalk.
- Bien qu'il n'élimine pas l'ajout de nouvelles fonctionnalités, nous aimerions nous assurer qu'il existe encore un moyen d'obtenir la même sortie qu'OpenJtalk à l'aide d'options, de versions, de fonctionnalités, etc.
Ce référentiel ne gère pas le moteur HTS
- Il soutient la création d'étiquettes de contexte complet, mais au-delà de cela, il est en dehors de la portée de ce référentiel.
- Un projet de réécriture du moteur HTS avec de la rouille peut être trouvé sur JPreprocess / Jbonsai.

Caisses

jpreprocess

C'est l'interface principale. C'est un wrapper pour Lindera, JPreprocess-NJD, JPreprocess-JPCommon, et plus encore. Les mots du résultat de l'analyse sont conservés dans la structure de données définie par JPreprocess-core.

exemple:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

jpreprocess-core

Il comprend des structures de données telles que la prononciation, les mots, certaines parties de la parole, le jpcommon et d'autres fonctions et structures connexes qui représentent les erreurs. pos est un acronyme pour une partie du discours et représente «une partie du discours».

jpreprocess-dictionnaire

Charge le mot dictionnaire généré par jpreprocess-dictionnaire-constructeur en mémoire, permettant à des mots d'être recherchés.

À l'heure actuelle, le format du dictionnaire sera automatiquement déterminé.

jpreprocess-dictionnaire-constructeur

Le dictionnaire d'origine est dans le même format CSV que MECAB, mais vous devez générer à l'avance un dictionnaire dédié afin qu'il puisse être analysé à grande vitesse avec Lindera.

Il est créé sur la base de Lindera-Ipadic-Builder de Lindera, mais JPREPROCESS-Dictionary-Builder analyse également les cordes à l'avance, et peut générer un dictionnaire (dictionnaire JPreprocess) qui peut être traité directement avec JPreprocess.

jpreprocess-naist-jdic

Générez un dictionnaire pour JPreprocess en utilisant le dictionnaire expédié avec OpenJtalk. Utilisé pour la caractéristique naist-jdic de la caisse JPreprocess.

Notez que si vous activez la fonction naist-jdic et incluez cette caisse, il faudra plusieurs minutes à construire.

jpreprocess-njd

Il définit la structure de NJDNODE et NJD dans OpenJtalk et effectue un traitement de conversion pour NJD.

Plus précisément, il convertit la lecture des nombres (par exemple, "10 1220" en "Ichiman hyakuniju") et estime la position d'accent.

jpreprocess-jpcommon

Il définit la structure de JPCommonLabel dans OpenJtalk et la convertit de NJD en JPCommon puis JPCommon en étiquettes de contexte complètes.

jpreprocess-window

Implémentez une fenêtre mutable utilisée dans le processus de conversion JPreprocess-NJD.

Droits d'auteur

Ce logiciel comprend le code source de:

OpenJtalk. Copyright (c) 2008-2016 Nagoya Institute of Technology Department of Computer Science
Yada: Encore une autre double array.

Bien que ce référentiel ait un fichier de codeurs de code, cela ne signifie pas nécessairement que les développeurs répertoriés dans le fichier Codeowners ont le droit d'auteur pour tous les fichiers de ce référentiel. Les droits d'auteur sont répertoriés dans des fichiers de préavis ou de licence, et le fichier de codeurs de code est juste pour la révision du code.