Descarga jpreprocess - Descargar el código fuente jpreprocess

jpreprocess

Código Fuente de IA

v0.10.0

Descargar

JPREPROCESS

Analiza oraciones japonesas y genera etiquetas de contexto completas.

Esta es una reescritura de la parte de preprocesamiento de OpenJTalk (que no sea el motor HTS) que usa óxido.

Objetivos y políticas

En lugar de simplemente transferir la estructura OpenJTalk, está diseñada para ser lo más fácil de leer y escribir como sea posible.
Mientras reduce el tamaño de los archivos de diccionario con su propio formato de diccionario, también utiliza el diccionario tradicional de "toda la información como cadenas".
- Ninguno de los dos es compatible con el diccionario MECAB en sí, pero puede generar un diccionario utilizando el mismo archivo CSV que utilizaría para construir un diccionario MECAB.
Excepto por algunas características que parecen ser errores, puede obtener exactamente la misma salida (etiqueta de contexto completa) como OpenJTalk
- Por ejemplo, la forma de leer "verbos auxiliares especiales" y confundir 2, 2, 3 dígitos separados es diferente de OpenJTalk.
- Aunque no elimina la adición de nuevas características, nos gustaría asegurarnos de que todavía haya una manera de obtener la misma salida que OpenJTalk usando opciones, versiones, características, etc.
Este repositorio no maneja el motor HTS
- Admite la creación de etiquetas de contexto completas, pero más allá de eso, está fuera del alcance de este repositorio.
- Se puede encontrar un proyecto para reescribir el motor HTS con óxido en JPreProcess/JBonsai.

Cajas

JPREPROCESS

Es la interfaz principal. Es un envoltorio para Lindera, Jpreprocess-NJD, JPREPROCESS-JPCOMMON y más. Las palabras en el resultado del análisis se mantienen en la estructura de datos definida por JPREPROCESS-CORE.

ejemplo:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

JPREPROCESS-CORE

Incluye estructuras de datos como pronunciación, palabras, partes del habla, jpcommon y otras funciones y estructuras relacionadas que representan errores. pos es un acrónimo de parte del discurso y representa "parte del discurso".

JPREPROCESS DICCIONARIO

Carga el diccionario de palabras generado por JPREPROCESS-Dictionary-Builder en la memoria, lo que permite buscar palabras.

En este momento, el formato del diccionario se determinará automáticamente.

JPROPROCESS-DICCIONARIO-BUIORLA

El diccionario original está en el mismo formato CSV que MECAB, pero debe generar un diccionario dedicado por adelantado para que pueda analizarse a alta velocidad con Lindera.

Se crea basado en Lindera-ipadic-builder, pero JPREPROCESS-Dictionary-Builder también analiza las cadenas de antemano y puede generar un diccionario (Jprocesss Dictionary) que puede procesarse directamente con JPreCrocess.

JPREPROCESS-NAIST-JDIC

Genere un diccionario para JPREPROCESS utilizando el diccionario que fue enviado con OpenJTalk. Utilizado para la característica naist-jdic de JPREPROCESS CRATE.

Tenga en cuenta que si habilita la función naist-jdic e incluye esta caja, tomará varios minutos construir.

JPREPROCESS-NJD

Define la estructura de NJDNode y NJD en OpenJTalk, y realiza el procesamiento de conversión para NJD.

Específicamente, convierte la lectura de números (por ejemplo, "10,120" a "Ichiman Hyakuniju") y estima la posición de acento.

JPREPROCESS-JPCOMMON

Define la estructura de JPCommonLabel en OpenJTalk, y la convierte de NJD a JPCommon y luego JPCommon a etiquetas de contexto completas.

JPREPROCESS-WINDOW

Implementar una ventana mutable utilizada en el proceso de conversión JPreProcess-NJD.

Derechos de autor

Este software incluye código fuente de:

OpenJTalk. Copyright (c) 2008-2016 Departamento de Ciencias de la Computación del Instituto de Tecnología de Nagoya
Yada: Otra doble matriz.

Aunque este repositorio tiene un archivo de propietarios de códigos, no necesariamente significa que los desarrolladores que figuran en el archivo de propietarios de código tienen los derechos de autor para todos los archivos en este repositorio. Los derechos de autor se enumeran en archivos de notificación o licencia, y el archivo de propietarios de código es solo para revisar el código.