Analiza oraciones japonesas y genera etiquetas de contexto completas.
Esta es una reescritura de la parte de preprocesamiento de OpenJTalk (que no sea el motor HTS) que usa óxido.
Es la interfaz principal. Es un envoltorio para Lindera, Jpreprocess-NJD, JPREPROCESS-JPCOMMON y más. Las palabras en el resultado del análisis se mantienen en la estructura de datos definida por JPREPROCESS-CORE.
ejemplo:
use jpreprocess :: * ;
let config = JPreprocessConfig {
dictionary : SystemDictionaryConfig :: File ( path ) ,
user_dictionary : None ,
} ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;
let jpcommon_label = jpreprocess
. extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します." ) ? ;
assert_eq ! (
jpcommon_label [ 2 ] . to_string ( ) ,
concat! (
"sil^n-i+h=o" ,
"/A:-3+1+7" ,
"/B:xx-xx_xx" ,
"/C:02_xx+xx" ,
"/D:02+xx_xx" ,
"/E:xx_xx!xx_xx-xx" ,
"/F:7_4#0_xx@1_3|1_12" ,
"/G:4_4%0_xx_1" ,
"/H:xx_xx" ,
"/I:3-12@1+2&1-8|1+41" ,
"/J:5_29" ,
"/K:2+8-41"
)
) ; Incluye estructuras de datos como pronunciación, palabras, partes del habla, jpcommon y otras funciones y estructuras relacionadas que representan errores. pos es un acrónimo de parte del discurso y representa "parte del discurso".
Carga el diccionario de palabras generado por JPREPROCESS-Dictionary-Builder en la memoria, lo que permite buscar palabras.
En este momento, el formato del diccionario se determinará automáticamente.
El diccionario original está en el mismo formato CSV que MECAB, pero debe generar un diccionario dedicado por adelantado para que pueda analizarse a alta velocidad con Lindera.
Se crea basado en Lindera-ipadic-builder, pero JPREPROCESS-Dictionary-Builder también analiza las cadenas de antemano y puede generar un diccionario (Jprocesss Dictionary) que puede procesarse directamente con JPreCrocess.
Genere un diccionario para JPREPROCESS utilizando el diccionario que fue enviado con OpenJTalk. Utilizado para la característica naist-jdic de JPREPROCESS CRATE.
Tenga en cuenta que si habilita la función naist-jdic e incluye esta caja, tomará varios minutos construir.
Define la estructura de NJDNode y NJD en OpenJTalk, y realiza el procesamiento de conversión para NJD.
Específicamente, convierte la lectura de números (por ejemplo, "10,120" a "Ichiman Hyakuniju") y estima la posición de acento.
Define la estructura de JPCommonLabel en OpenJTalk, y la convierte de NJD a JPCommon y luego JPCommon a etiquetas de contexto completas.
Implementar una ventana mutable utilizada en el proceso de conversión JPreProcess-NJD.
Este software incluye código fuente de:
Aunque este repositorio tiene un archivo de propietarios de códigos, no necesariamente significa que los desarrolladores que figuran en el archivo de propietarios de código tienen los derechos de autor para todos los archivos en este repositorio. Los derechos de autor se enumeran en archivos de notificación o licencia, y el archivo de propietarios de código es solo para revisar el código.
Cláusula BSD-3