一种新的形态分析仪,该分析仪通过使用复发性神经网络语言模型(RNNLM)来考虑单词序列的语义合理性。版本2比原始juman ++具有更好的精度,并且(> 250倍)的分析速度得到了更大的提高。
sudo apt install libprotobuf-dev protobuf-compiler其他软件包,如下:阅读此文档,以了解CentOS和Rhel衍生物或非杀伤替代品。
从版本下载包裹
重要的是:下载应为300 MB。如果不是,您可能已经下载了不包含模型的源快照。
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > 重要的是:只有包装分布包含预验证的模型,可用于分析。当前的GIT版本与2.0-RC1和2.0-RC2的型号不兼容。
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
使用--help来查看更多选项。
Juman ++只能将UTF-8编码文本作为输入。以#开头的线将被解释为注释。
该存储库中提供了一组用于培训Jumandic模型的脚本。可以修改系统字典以在训练有素的模型中添加其他条目。
注意:您需要可以使用1995年的Mainichi Shinbun来使用京都大学语料库进行培训。
您可以在我们的网络演示周围播放,该演示显示整个晶格的一个子集。该演示仍然使用V1,但是它将很快更新为V2。
您可以看到两个不同的梁配置产生不同分析的句子。 src/jumandic/jpp_jumandic_pathdiff二进制(源)(相对于汇编根)做到了。这里唯一的特定于杂耍表明的东西是代码生成的线性模型推断的用法。
将二进制用作jpp_jumandic_pathdiff <model> <input> > <output> 。
输出将采用部分注释格式,完整的光束结果是实际标签,而修剪的光束结果作为注释。
例子:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
我们也有一个部分注释工具。有关详细信息,请参阅https://github.com/eiennohito/nlp-tools-demo。
为了获得最佳性能,您需要使用扩展的指令集进行构建。如果您计划仅在本地使用Juman ++,请指定-DCMAKE_CXX_FLAGS="-march=native" 。
在英特尔·哈斯韦尔(Intel Haswell)和较新的处理器上工作(由于FMA和BMI指令集扩展程序)。
Juman ++是一种通用工具。它不取决于Jumandic或日语(尽管有一些日本特定功能)。请参阅此教程项目,该项目显示了如何实现与输入文本中没有单词边界的情况相似的情况。
关于模型本身:使用复发性神经网络语言模型对未分段语言的形态分析。 Hajime Morita,Kawahara Daisuke,Kawahara,Sadao Kurohashi。 EMNLP 2015 Link,Bibtex。
V2改进: Juman ++ V2:实用和现代的形态分析仪。 Arseny Tolmachev和Kurohashi Sadao。自然语言处理协会二十四年会议的会议记录。 2018年3月,日本冈山。 (PDF,幻灯片)
ANLP2018幻灯片中的形态分析研讨会:形态素解析システムjuman ++。 河原,Arseny Tolmachev。 (日语)幻灯片。
Juman ++:Scriptio Continua的形态分析工具包。 Arseny Tolmachev,Daisuke Kawahara和Sadao Kurohashi。 EMNLP 2018,布鲁塞尔。 PDF,海报,Bibtex。
Juman ++形态分析仪工具包的设计和结构。阿森尼·托尔马乔夫(Arseny Tolmachev),卡瓦哈拉(Kawahara),萨达(Sadao Kurohashi)。自然语言处理杂志(论文,Bibtex)。
如果您在学术环境中使用Juman ++ V1,请引用第一项工作(EMNLP2015)。如果您使用Juman ++ V2,请引用第一和第四张(EMNLP2018)论文。
Juman ++使用的所有库的列表在这里。
这是Juman ++重写的分支。原始版本属于传统分支。