Descargar jumanpp - Descargar código fuente de jumanpp

jumanpp

Otro código fuente

1.0.0

Descargar

¿Qué es Juman ++?

Un nuevo analizador morfológico que considera la plausibilidad semántica de las secuencias de palabras mediante el uso de un modelo de lenguaje de red neuronal recurrente (RNNLM). La versión 2 tiene una mejor precisión y una velocidad de análisis mejorada (> 250x) que el Juman ++ original.

Instalación

Requisitos del sistema

OS: Linux, MacOS X o Windows.
Compilador: C ++ 14 Compatible
- Por ejemplo, GCC 5.1+, Clang 3.4+, MSVC 2017
- Probamos en GCC y Clang en Linux/MacOS, Mingw64-GCC y MSVC2017 en Windows

Cmake v3.1 o posterior
Para Ubuntu22.04, debe instalar paquetes adicionales de la siguiente manera: sudo apt install libprotobuf-dev protobuf-compiler

Lea este documento para derivados CentOS y RHEL o alternativas sin calificación.

Edificio desde un paquete

Descargue el paquete de los lanzamientos

IMPORTANTE : La descarga debe ser de alrededor de 300 MB. Si no es así, probablemente haya descargado una instantánea de origen que no contiene un modelo.

$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake .. 
  -DCMAKE_BUILD_TYPE=Release  # you want to do this for performance
  -DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism >

Edificio de Git

IMPORTANTE : Solo la distribución del paquete contiene un modelo previo a la aparición y puede usarse para el análisis. La versión actual de GIT no es compatible con los modelos de 2.0-RC1 y 2.0-RC2.

$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j

Uso

Comienzo rápido

 % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS

Opciones principales

 usage: jumanpp [options] 
  -s, --specifics              lattice format output (unsigned int [=5])
  --beam <int>                 set local beam width used in analysis (unsigned int [=5])
  -v, --version                print version
  -h, --help                   print this message
  --model <file>               specify a model location

Use --help para ver más opciones.

Aporte

Juman ++ puede manejar solo el texto codificado UTF-8 como entrada. Las líneas que comienzan con # se interpretarán como comentarios.

Entrenamiento modelo jumádico

Un conjunto de scripts para el modelo de capacitación jumálica está disponible en este repositorio. Es posible modificar el diccionario del sistema para agregar otras entradas al modelo capacitado.

Atención : debe tener acceso a Mainichi Shinbun para el año 1995 para poder usar Kyoto Univeristy Corpus para capacitación.

Otro

MANIFESTACIÓN

Puede jugar alrededor de nuestra demostración web que muestra un subconjunto de toda la red. La demostración todavía usa V1 pero pronto se actualizará a V2.

Extracción de diferencias causadas por configuraciones de haz

Puede ver oraciones en las que dos configuraciones de haz diferentes producen análisis diferentes. Un src/jumandic/jpp_jumandic_pathdiff binary (fuente) (en relación con una raíz de compilación) lo hace. La única cosa específica de jumántica aquí es el uso de la inferencia del modelo lineal generado por código.

Use el binario como jpp_jumandic_pathdiff <model> <input> > <output> .

Las salidas estarían en el formato de anotación parcial con los resultados de la viga completa que son las etiquetas reales y los resultados del haz recortado que se escriben como comentarios.

Ejemplo:

 # scores: -0.602687 -1.20004
# 子がい        pos:名詞        subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
        子      pos:名詞        subpos:普通名詞 <------- full beam result
        が      pos:助詞        subpos:格助詞
        い      baseform:いる   conjtype:母音動詞       pos:動詞        conjform:基本連用形
ます

Herramienta de anotación parcial

También tenemos una herramienta de anotación parcial. Consulte https://github.com/eienennohito/nlp-tools-demo para más detalles.

Notas de rendimiento

Para obtener el mejor rendimiento, debe construir con conjuntos de instrucciones extendidas. Si planea usar Juman ++ solo localmente, especifique -DCMAKE_CXX_FLAGS="-march=native" .

Funciona mejor en Intel Haswell y procesadores más nuevos (debido a las extensiones de FMA y el conjunto de instrucciones de IMC).

Uso de Juman ++ para crear su propio analizador morfológico

Juman ++ es una herramienta general. No depende del idioma jumándo o japonés (aunque hay alguna funcionalidad específica de japonés). Vea este proyecto tutorial que muestra cómo implementar algo similar a una entrada de texto T9 para el caso cuando no hay límites de palabras en el texto de entrada.

Publicaciones y diapositivas

Acerca del modelo en sí: análisis morfológico para lenguajes no segmentados utilizando un modelo de lenguaje de red neuronal recurrente . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. EMNLP 2015 Link, Bibtex.
Mejoras V2: Juman ++ V2: un analizador morfológico práctico y moderno . Arseny Tolmachov y Kurohashi Sadao. Las actas de la vigésima cuarta reunión anual de la Asociación para el Procesamiento del Lenguaje Natural. Marzo de 2018, Okayama, Japón. (PDF, diapositivas)
Taller de análisis morfológico en diapositivas ANLP2018: 形態素解析システム Juman ++. 河原大輔, Arseny Tolmachev. (en japonés) diapositivas.
Juman ++: un conjunto de herramientas de análisis morfológico para scriptio continua. Arseny Tolmachov, Daisuke Kawahara y Sadao Kurohashi. EMNLP 2018, Bruselas. PDF, póster, bibtex.
Diseño y estructura del kit de herramientas de analizador morfológico Juman ++. Arseny Tolmachov, Daisuke Kawahara, Sadao Kurohashi. Journal of Natural Language Processing, (Paper, Bibtex).

Si usa Juman ++ V1 en el entorno académico, cite el primer trabajo (EMNLP2015). Si usa Juman ++ V2, cite los documentos primero y cuarto (EMNLP2018).