Un nuevo analizador morfológico que considera la plausibilidad semántica de las secuencias de palabras mediante el uso de un modelo de lenguaje de red neuronal recurrente (RNNLM). La versión 2 tiene una mejor precisión y una velocidad de análisis mejorada (> 250x) que el Juman ++ original.
sudo apt install libprotobuf-dev protobuf-compilerLea este documento para derivados CentOS y RHEL o alternativas sin calificación.
Descargue el paquete de los lanzamientos
IMPORTANTE : La descarga debe ser de alrededor de 300 MB. Si no es así, probablemente haya descargado una instantánea de origen que no contiene un modelo.
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > IMPORTANTE : Solo la distribución del paquete contiene un modelo previo a la aparición y puede usarse para el análisis. La versión actual de GIT no es compatible con los modelos de 2.0-RC1 y 2.0-RC2.
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
Use --help para ver más opciones.
Juman ++ puede manejar solo el texto codificado UTF-8 como entrada. Las líneas que comienzan con # se interpretarán como comentarios.
Un conjunto de scripts para el modelo de capacitación jumálica está disponible en este repositorio. Es posible modificar el diccionario del sistema para agregar otras entradas al modelo capacitado.
Atención : debe tener acceso a Mainichi Shinbun para el año 1995 para poder usar Kyoto Univeristy Corpus para capacitación.
Puede jugar alrededor de nuestra demostración web que muestra un subconjunto de toda la red. La demostración todavía usa V1 pero pronto se actualizará a V2.
Puede ver oraciones en las que dos configuraciones de haz diferentes producen análisis diferentes. Un src/jumandic/jpp_jumandic_pathdiff binary (fuente) (en relación con una raíz de compilación) lo hace. La única cosa específica de jumántica aquí es el uso de la inferencia del modelo lineal generado por código.
Use el binario como jpp_jumandic_pathdiff <model> <input> > <output> .
Las salidas estarían en el formato de anotación parcial con los resultados de la viga completa que son las etiquetas reales y los resultados del haz recortado que se escriben como comentarios.
Ejemplo:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
También tenemos una herramienta de anotación parcial. Consulte https://github.com/eienennohito/nlp-tools-demo para más detalles.
Para obtener el mejor rendimiento, debe construir con conjuntos de instrucciones extendidas. Si planea usar Juman ++ solo localmente, especifique -DCMAKE_CXX_FLAGS="-march=native" .
Funciona mejor en Intel Haswell y procesadores más nuevos (debido a las extensiones de FMA y el conjunto de instrucciones de IMC).
Juman ++ es una herramienta general. No depende del idioma jumándo o japonés (aunque hay alguna funcionalidad específica de japonés). Vea este proyecto tutorial que muestra cómo implementar algo similar a una entrada de texto T9 para el caso cuando no hay límites de palabras en el texto de entrada.
Acerca del modelo en sí: análisis morfológico para lenguajes no segmentados utilizando un modelo de lenguaje de red neuronal recurrente . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. EMNLP 2015 Link, Bibtex.
Mejoras V2: Juman ++ V2: un analizador morfológico práctico y moderno . Arseny Tolmachov y Kurohashi Sadao. Las actas de la vigésima cuarta reunión anual de la Asociación para el Procesamiento del Lenguaje Natural. Marzo de 2018, Okayama, Japón. (PDF, diapositivas)
Taller de análisis morfológico en diapositivas ANLP2018: 形態素解析システム Juman ++. 河原 大輔, Arseny Tolmachev. (en japonés) diapositivas.
Juman ++: un conjunto de herramientas de análisis morfológico para scriptio continua. Arseny Tolmachov, Daisuke Kawahara y Sadao Kurohashi. EMNLP 2018, Bruselas. PDF, póster, bibtex.
Diseño y estructura del kit de herramientas de analizador morfológico Juman ++. Arseny Tolmachov, Daisuke Kawahara, Sadao Kurohashi. Journal of Natural Language Processing, (Paper, Bibtex).
Si usa Juman ++ V1 en el entorno académico, cite el primer trabajo (EMNLP2015). Si usa Juman ++ V2, cite los documentos primero y cuarto (EMNLP2018).
La lista de todas las bibliotecas utilizadas por Juman ++ está aquí.
Esta es una rama para la reescritura Juman ++. La versión original vive en la rama Legacy.