Il analyse les phrases japonaises et génère des étiquettes de contexte complètes.
Il s'agit d'une réécriture de la partie de prétraitement de OpenJtalk (autre que le moteur HTS) en utilisant la rouille.
C'est l'interface principale. C'est un wrapper pour Lindera, JPreprocess-NJD, JPreprocess-JPCommon, et plus encore. Les mots du résultat de l'analyse sont conservés dans la structure de données définie par JPreprocess-core.
exemple:
use jpreprocess :: * ;
let config = JPreprocessConfig {
dictionary : SystemDictionaryConfig :: File ( path ) ,
user_dictionary : None ,
} ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;
let jpcommon_label = jpreprocess
. extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します." ) ? ;
assert_eq ! (
jpcommon_label [ 2 ] . to_string ( ) ,
concat! (
"sil^n-i+h=o" ,
"/A:-3+1+7" ,
"/B:xx-xx_xx" ,
"/C:02_xx+xx" ,
"/D:02+xx_xx" ,
"/E:xx_xx!xx_xx-xx" ,
"/F:7_4#0_xx@1_3|1_12" ,
"/G:4_4%0_xx_1" ,
"/H:xx_xx" ,
"/I:3-12@1+2&1-8|1+41" ,
"/J:5_29" ,
"/K:2+8-41"
)
) ; Il comprend des structures de données telles que la prononciation, les mots, certaines parties de la parole, le jpcommon et d'autres fonctions et structures connexes qui représentent les erreurs. pos est un acronyme pour une partie du discours et représente «une partie du discours».
Charge le mot dictionnaire généré par jpreprocess-dictionnaire-constructeur en mémoire, permettant à des mots d'être recherchés.
À l'heure actuelle, le format du dictionnaire sera automatiquement déterminé.
Le dictionnaire d'origine est dans le même format CSV que MECAB, mais vous devez générer à l'avance un dictionnaire dédié afin qu'il puisse être analysé à grande vitesse avec Lindera.
Il est créé sur la base de Lindera-Ipadic-Builder de Lindera, mais JPREPROCESS-Dictionary-Builder analyse également les cordes à l'avance, et peut générer un dictionnaire (dictionnaire JPreprocess) qui peut être traité directement avec JPreprocess.
Générez un dictionnaire pour JPreprocess en utilisant le dictionnaire expédié avec OpenJtalk. Utilisé pour la caractéristique naist-jdic de la caisse JPreprocess.
Notez que si vous activez la fonction naist-jdic et incluez cette caisse, il faudra plusieurs minutes à construire.
Il définit la structure de NJDNODE et NJD dans OpenJtalk et effectue un traitement de conversion pour NJD.
Plus précisément, il convertit la lecture des nombres (par exemple, "10 1220" en "Ichiman hyakuniju") et estime la position d'accent.
Il définit la structure de JPCommonLabel dans OpenJtalk et la convertit de NJD en JPCommon puis JPCommon en étiquettes de contexte complètes.
Implémentez une fenêtre mutable utilisée dans le processus de conversion JPreprocess-NJD.
Ce logiciel comprend le code source de:
Bien que ce référentiel ait un fichier de codeurs de code, cela ne signifie pas nécessairement que les développeurs répertoriés dans le fichier Codeowners ont le droit d'auteur pour tous les fichiers de ce référentiel. Les droits d'auteur sont répertoriés dans des fichiers de préavis ou de licence, et le fichier de codeurs de code est juste pour la révision du code.
Clause BSD-3