一種新的形態分析儀,該分析儀通過使用複發性神經網絡語言模型(RNNLM)來考慮單詞序列的語義合理性。版本2比原始juman ++具有更好的精度,並且(> 250倍)的分析速度得到了更大的提高。
sudo apt install libprotobuf-dev protobuf-compiler其他軟件包,如下:閱讀此文檔,以了解CentOS和Rhel衍生物或非殺傷替代品。
從版本下載包裹
重要的是:下載應為300 MB。如果不是,您可能已經下載了不包含模型的源快照。
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > 重要的是:只有包裝分佈包含預驗證的模型,可用於分析。當前的GIT版本與2.0-RC1和2.0-RC2的型號不兼容。
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
使用--help來查看更多選項。
Juman ++只能將UTF-8編碼文本作為輸入。以#開頭的線將被解釋為註釋。
該存儲庫中提供了一組用於培訓Jumandic模型的腳本。可以修改系統字典以在訓練有素的模型中添加其他條目。
注意:您需要可以使用1995年的Mainichi Shinbun來使用京都大學語料庫進行培訓。
您可以在我們的網絡演示周圍播放,該演示顯示整個晶格的一個子集。該演示仍然使用V1,但是它將很快更新為V2。
您可以看到兩個不同的梁配置產生不同分析的句子。 src/jumandic/jpp_jumandic_pathdiff二進制(源)(相對於彙編根)做到了。這裡唯一的特定於雜耍表明的東西是代碼生成的線性模型推斷的用法。
將二進制用作jpp_jumandic_pathdiff <model> <input> > <output> 。
輸出將採用部分註釋格式,完整的光束結果是實際標籤,而修剪的光束結果作為註釋。
例子:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
我們也有一個部分註釋工具。有關詳細信息,請參閱https://github.com/eiennohito/nlp-tools-demo。
為了獲得最佳性能,您需要使用擴展的指令集進行構建。如果您計劃僅在本地使用Juman ++,請指定-DCMAKE_CXX_FLAGS="-march=native" 。
在英特爾·哈斯韋爾(Intel Haswell)和較新的處理器上工作(由於FMA和BMI指令集擴展程序)。
Juman ++是一種通用工具。它不取決於Jumandic或日語(儘管有一些日本特定功能)。請參閱此教程項目,該項目顯示瞭如何實現與輸入文本中沒有單詞邊界的情況相似的情況。
關於模型本身:使用複發性神經網絡語言模型對未分段語言的形態分析。 Hajime Morita,Kawahara Daisuke,Kawahara,Sadao Kurohashi。 EMNLP 2015 Link,Bibtex。
V2改進: Juman ++ V2:實用和現代的形態分析儀。 Arseny Tolmachev和Kurohashi Sadao。自然語言處理協會二十四年會議的會議記錄。 2018年3月,日本岡山。 (PDF,幻燈片)
ANLP2018幻燈片中的形態分析研討會:形態素解析システムjuman ++。 河原,Arseny Tolmachev。 (日語)幻燈片。
Juman ++:Scriptio Continua的形態分析工具包。 Arseny Tolmachev,Daisuke Kawahara和Sadao Kurohashi。 EMNLP 2018,布魯塞爾。 PDF,海報,Bibtex。
Juman ++形態分析儀工具包的設計和結構。阿森尼·托爾馬喬夫(Arseny Tolmachev),卡瓦哈拉(Kawahara),薩達(Sadao Kurohashi)。自然語言處理雜誌(論文,Bibtex)。
如果您在學術環境中使用Juman ++ V1,請引用第一項工作(EMNLP2015)。如果您使用Juman ++ V2,請引用第一和第四張(EMNLP2018)論文。
Juman ++使用的所有庫的列表在這裡。
這是Juman ++重寫的分支。原始版本屬於傳統分支。