Ein neuer morphologischer Analysator, der die semantische Plausibilität von Wortsequenzen unter Verwendung eines rezidivierenden neuronalen Netzwerksmodells (RNNLM) betrachtet. Version 2 hat eine bessere Genauigkeit und erhebliche (> 250x) verbesserte Analysegeschwindigkeit als der ursprüngliche Juman ++.
sudo apt install libprotobuf-dev protobuf-compilerLesen Sie dieses Dokument für CentOS- und RHEL-Derivate oder Nicht-Cmake-Alternativen.
Laden Sie das Paket von Veröffentlichungen herunter
WICHTIG : Der Download sollte bei 300 MB betragen. Wenn dies nicht der Fall ist, haben Sie wahrscheinlich einen Quell -Snapshot heruntergeladen, der kein Modell enthält.
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > Wichtig : Nur die Paketverteilung enthält ein vorgezogenes Modell und kann zur Analyse verwendet werden. Die aktuelle Git-Version ist nicht mit den Modellen von 2.0-RC1 und 2.0-RC2 kompatibel.
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
Verwenden Sie --help , um weitere Optionen zu sehen.
Juman ++ kann nur UTF-8-codierter Text als Eingabe verarbeiten. Zeilen, die mit # beginnen, werden als Kommentare interpretiert.
In diesem Repository finden Sie eine Reihe von Skripten für das Jumandic -Modell für das Jumandic -Modell. Es ist möglich, das System -Wörterbuch zu ändern, um dem geschulten Modell andere Einträge hinzuzufügen.
Achtung : Sie müssen für das Jahr 1995 Zugang zu Mainichi Shinbun haben, um Kyoto univeristy Corpus für das Training zu verwenden.
Sie können in unserer Web -Demo herumspielen, in der eine Teilmenge des gesamten Gitters angezeigt wird. Die Demo verwendet immer noch V1, wird aber bald auf V2 aktualisiert.
Sie können Sätze sehen, in denen zwei verschiedene Strahlkonfigurationen unterschiedliche Analysen erzeugen. A src/jumandic/jpp_jumandic_pathdiff BINARY (Quelle) (relativ zu einer Kompilierungswurzel). Die einzige jumandischspezifische Sache hier ist die Verwendung von Code-generierten linearen Modellinferenz.
Verwenden Sie das binäre Binary as jpp_jumandic_pathdiff <model> <input> > <output> .
Die Ausgänge wären im teilweisen Annotationsformat mit vollständigen Strahlgebnissen, die die tatsächlichen Tags und die geschnittenen Strahlergebnisse sind, die als Kommentare geschrieben werden.
Beispiel:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
Wir haben auch ein teilweise Annotationsinstrument. Weitere Informationen finden Sie unter https://github.com/eiennohito/nlp-tools-demo.
Um die beste Leistung zu erzielen, müssen Sie mit erweiterten Anweisungssätzen erstellen. Wenn Sie vorhaben, Juman ++ nur lokal zu verwenden, geben Sie -DCMAKE_CXX_FLAGS="-march=native" an.
Funktioniert am besten für Intel Haswell und neuere Prozessoren (aufgrund von FMA- und BMI -Anweisungsverlängerungen).
Juman ++ ist ein allgemeines Werkzeug. Es hängt nicht von jumandischer oder japanischer Sprache ab (obwohl es einige japanische Funktionen gibt). Sehen Sie sich dieses Tutorial -Projekt an, das zeigt, wie ein etwas Ähnliches wie ein T9 -Texteingabe für den Fall implementiert werden kann, wenn im Eingabetxt keine Wortgrenzen vorhanden sind.
Über das Modell selbst: Morphologische Analyse für nicht segmentierte Sprachen unter Verwendung eines rezidivierenden neuronalen Netzwerksprachenmodells . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. EMNLP 2015 Link, Bibtex.
V2 -Verbesserungen: Juman ++ V2: Ein praktischer und moderner morphologischer Analysator . Arseny TolMachev und Kurohashi Sadao. Das Verfahren der vierundzwanzigsten Jahrestagung des Vereins für natürliche Sprachverarbeitung. März 2018, Okayama, Japan. (PDF, Folien)
Morphologischer Analyse -Workshop in ANLP2018 Folien: 形態素解析システム Juman ++. 河原 大輔, Arseny TolMachev. (auf japanisch) Folien.
Juman ++: Ein morphologisches Analyse -Toolkit für Scriptio Continua. Arseny TolMachev, Daisuke Kawahara und Sadao Kurohashi. EMNLP 2018, Brüssel. PDF, Poster, Bibtex.
Design und Struktur des Juman ++ Morphologischen Analysator -Toolkits. Arseny TolMachev, Daisuke Kawahara, Sadao Kurohashi. Journal of Natural Language Processing (Papier, Bibtex).
Wenn Sie Juman ++ V1 im akademischen Umfeld verwenden, zitieren Sie bitte die erste Arbeit (EMNLP2015). Wenn Sie Juman ++ V2 verwenden, zitieren Sie bitte sowohl die erste als auch die vierte (EMNLP2018) Papiere.
Die Liste aller von Juman ++ verwendeten Bibliotheken ist hier.
Dies ist ein Zweig für das Reschreibt der Juman ++. Die Originalversion lebt in der Legacy -Filiale.