jpreprocess Download - jpreprocess Fonte Code Download

jpreprocess

Código-Fonte de IA

v0.10.0

Baixar

JPreprocess

Ele analisa frases japonesas e gera rótulos completos de contexto.

Esta é uma reescrita da parte de pré -processamento do OpenJTalk (exceto o motor HTS) usando ferrugem.

Objetivos e políticas

Em vez de apenas transferir a estrutura do OpenJTalk, ele foi projetado para ser o mais fácil de ler e escrever o possível.
Ao reduzir o tamanho dos arquivos de dicionário com seu próprio formato de dicionário, ele também usa o dicionário tradicional "todas as informações como strings".
- Nem é compatível com o próprio dicionário Mecab, mas você pode gerar um dicionário usando o mesmo arquivo CSV que você usaria para criar um dicionário de mecab.
Exceto por alguns recursos que parecem ser bugs, você pode obter exatamente a mesma saída (rótulo de contexto completo) que o OpenJTalk
- Por exemplo, a maneira de ler "verbos auxiliares especiais" e confundir 2, 2, 3 dígitos números separados é diferente do OpenJTalk.
- Embora não elimine a adição de novos recursos, gostaríamos de garantir que ainda exista uma maneira de obter a mesma saída que o OpenJTalk usando opções, versões, recursos etc.
Este repositório não lida com o motor HTS
- Ele suporta a criação de rótulos completos de contexto, mas além disso, está fora do escopo deste repositório.
- Um projeto para reescrever o motor HTS com ferrugem pode ser encontrado no JPreprocess/Jbonsai.

Crates

JPreprocess

É a interface principal. É um invólucro para Lindera, JPreprocess-NJD, JPreprocess-JPCommon e muito mais. As palavras no resultado da análise são mantidas na estrutura de dados definida pelo JPreprocess-Core.

exemplo:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

jPreprocess-core

Inclui estruturas de dados como pronúncia, palavras, partes da fala, JPCommon e outras funções e estruturas relacionadas que representam erros. pos é um acrônimo para parte da fala e representa "parte da fala".

JPreprocess-dicionário

Carrega a palavra dicionário gerado pelo Builder JPreprocess-Dictionary na memória, permitindo que as palavras sejam pesquisadas.

No momento, o formato do dicionário será determinado automaticamente.

JPreprocess-dictionary-Builder

O dicionário original está no mesmo formato CSV que o Mecab, mas você precisa gerar um dicionário dedicado com antecedência para que possa ser analisado em alta velocidade com o Lindera.

É criado com base no Builder Lindera-ipadic, mas o Builder JPreprocess-Dictionary também analisa com antecedência e pode gerar um dicionário (JPreprocess Dictionary) que pode ser processado diretamente com o JPreprocess.

JPreprocess-Naist-Jdic

Gere um dicionário para o JPreprocess usando o dicionário que foi enviado com o OpenJTalk. Usado para o recurso naist-jdic do JPreprocess Crate.

Observe que, se você ativar o recurso naist-jdic e incluir esta caixa, levará vários minutos para ser construído.

JPreprocess-njd

Ele define a estrutura do NJDNODE e NJD no OpenJTalk e realiza processamento de conversão para NJD.

Especificamente, converte a leitura de números (por exemplo, "10.120" em "Ichiman Hyakuniju") e estima a posição de destaque.

JPreprocess-JpCommon

Ele define a estrutura do JPCommonLabel no OpenJTalk e a converte de NJD para JPCommon e depois JPCommon em rótulos completos de contexto.

JPreprocess-Window

Implemente uma janela mutável usada no processo de conversão JPreprocess-NJD.

Direitos autorais

Este software inclui código -fonte de:

OpenJTalk. Copyright (C) 2008-2016 Instituto de Tecnologia de Nagoya Departamento de Ciência da Computação
YADA: Mais uma dupla matriz.

Embora esse repositório tenha um arquivo de proprietários de códigos, isso não significa necessariamente que os desenvolvedores listados no arquivo dos proprietários de código têm os direitos autorais de todos os arquivos neste repositório. Os direitos autorais estão listados nos arquivos de aviso ou licença, e o arquivo dos proprietários de código é apenas para revisão de código.