jumanpp Download jumanpp Jumanpp Quellcode Download

jumanpp

Anderer Quellcode

1.0.0

Herunterladen

Was ist Juman ++

Ein neuer morphologischer Analysator, der die semantische Plausibilität von Wortsequenzen unter Verwendung eines rezidivierenden neuronalen Netzwerksmodells (RNNLM) betrachtet. Version 2 hat eine bessere Genauigkeit und erhebliche (> 250x) verbesserte Analysegeschwindigkeit als der ursprüngliche Juman ++.

Installation

Systemanforderungen

OS: Linux, macOS X oder Windows.
Compiler: C ++ 14 kompatibel
- Zum Beispiel GCC 5.1+, Clang 3.4+, MSVC 2017
- Wir testen auf GCC und Clang unter Linux/macOS, Mingw64-GCC und MSVC2017 unter Windows

Cmake v3.1 oder höher
Für Ubuntu22.04 müssen Sie wie folgt zusätzliche Pakete installieren: sudo apt install libprotobuf-dev protobuf-compiler

Lesen Sie dieses Dokument für CentOS- und RHEL-Derivate oder Nicht-Cmake-Alternativen.

Gebäude aus einem Paket

Laden Sie das Paket von Veröffentlichungen herunter

WICHTIG : Der Download sollte bei 300 MB betragen. Wenn dies nicht der Fall ist, haben Sie wahrscheinlich einen Quell -Snapshot heruntergeladen, der kein Modell enthält.

$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake .. 
  -DCMAKE_BUILD_TYPE=Release  # you want to do this for performance
  -DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism >

Gebäude aus Git

Wichtig : Nur die Paketverteilung enthält ein vorgezogenes Modell und kann zur Analyse verwendet werden. Die aktuelle Git-Version ist nicht mit den Modellen von 2.0-RC1 und 2.0-RC2 kompatibel.

$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j

Verwendung

Schneller Start

 % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS

Hauptoptionen

 usage: jumanpp [options] 
  -s, --specifics              lattice format output (unsigned int [=5])
  --beam <int>                 set local beam width used in analysis (unsigned int [=5])
  -v, --version                print version
  -h, --help                   print this message
  --model <file>               specify a model location

Verwenden Sie --help , um weitere Optionen zu sehen.

Eingang

Juman ++ kann nur UTF-8-codierter Text als Eingabe verarbeiten. Zeilen, die mit # beginnen, werden als Kommentare interpretiert.

Training Jumandisches Modell

In diesem Repository finden Sie eine Reihe von Skripten für das Jumandic -Modell für das Jumandic -Modell. Es ist möglich, das System -Wörterbuch zu ändern, um dem geschulten Modell andere Einträge hinzuzufügen.

Achtung : Sie müssen für das Jahr 1995 Zugang zu Mainichi Shinbun haben, um Kyoto univeristy Corpus für das Training zu verwenden.

Andere

DEMO

Sie können in unserer Web -Demo herumspielen, in der eine Teilmenge des gesamten Gitters angezeigt wird. Die Demo verwendet immer noch V1, wird aber bald auf V2 aktualisiert.

Extrahieren von Diffs, die durch Strahlkonfigurationen verursacht werden

Sie können Sätze sehen, in denen zwei verschiedene Strahlkonfigurationen unterschiedliche Analysen erzeugen. A src/jumandic/jpp_jumandic_pathdiff BINARY (Quelle) (relativ zu einer Kompilierungswurzel). Die einzige jumandischspezifische Sache hier ist die Verwendung von Code-generierten linearen Modellinferenz.

Verwenden Sie das binäre Binary as jpp_jumandic_pathdiff <model> <input> > <output> .

Die Ausgänge wären im teilweisen Annotationsformat mit vollständigen Strahlgebnissen, die die tatsächlichen Tags und die geschnittenen Strahlergebnisse sind, die als Kommentare geschrieben werden.

Beispiel:

 # scores: -0.602687 -1.20004
# 子がい        pos:名詞        subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
        子      pos:名詞        subpos:普通名詞 <------- full beam result
        が      pos:助詞        subpos:格助詞
        い      baseform:いる   conjtype:母音動詞       pos:動詞        conjform:基本連用形
ます

Partial Annotation Tool

Wir haben auch ein teilweise Annotationsinstrument. Weitere Informationen finden Sie unter https://github.com/eiennohito/nlp-tools-demo.

Leistungsnotizen

Um die beste Leistung zu erzielen, müssen Sie mit erweiterten Anweisungssätzen erstellen. Wenn Sie vorhaben, Juman ++ nur lokal zu verwenden, geben Sie -DCMAKE_CXX_FLAGS="-march=native" an.

Funktioniert am besten für Intel Haswell und neuere Prozessoren (aufgrund von FMA- und BMI -Anweisungsverlängerungen).

Verwenden Sie Juman ++, um Ihren eigenen morphologischen Analysator zu erstellen

Juman ++ ist ein allgemeines Werkzeug. Es hängt nicht von jumandischer oder japanischer Sprache ab (obwohl es einige japanische Funktionen gibt). Sehen Sie sich dieses Tutorial -Projekt an, das zeigt, wie ein etwas Ähnliches wie ein T9 -Texteingabe für den Fall implementiert werden kann, wenn im Eingabetxt keine Wortgrenzen vorhanden sind.

Veröffentlichungen und Folien

Über das Modell selbst: Morphologische Analyse für nicht segmentierte Sprachen unter Verwendung eines rezidivierenden neuronalen Netzwerksprachenmodells . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. EMNLP 2015 Link, Bibtex.
V2 -Verbesserungen: Juman ++ V2: Ein praktischer und moderner morphologischer Analysator . Arseny TolMachev und Kurohashi Sadao. Das Verfahren der vierundzwanzigsten Jahrestagung des Vereins für natürliche Sprachverarbeitung. März 2018, Okayama, Japan. (PDF, Folien)
Morphologischer Analyse -Workshop in ANLP2018 Folien: 形態素解析システム Juman ++. 河原大輔, Arseny TolMachev. (auf japanisch) Folien.
Juman ++: Ein morphologisches Analyse -Toolkit für Scriptio Continua. Arseny TolMachev, Daisuke Kawahara und Sadao Kurohashi. EMNLP 2018, Brüssel. PDF, Poster, Bibtex.
Design und Struktur des Juman ++ Morphologischen Analysator -Toolkits. Arseny TolMachev, Daisuke Kawahara, Sadao Kurohashi. Journal of Natural Language Processing (Papier, Bibtex).

Wenn Sie Juman ++ V1 im akademischen Umfeld verwenden, zitieren Sie bitte die erste Arbeit (EMNLP2015). Wenn Sie Juman ++ V2 verwenden, zitieren Sie bitte sowohl die erste als auch die vierte (EMNLP2018) Papiere.

Autoren

Arseny TolMachev <arseny bei kotonoha.ws>
Hajime Morita <Hmorita bei Nlp.IST.I.KYOTO-U.AC.JP>
Daisuke Kawahara <dk bei I.Kyoto-u.ac.jp>
Sadao Kurohashi <Kuro bei I.Kyoto-U.ac.jp>

Anerkennung

Die Liste aller von Juman ++ verwendeten Bibliotheken ist hier.

Beachten

Dies ist ein Zweig für das Reschreibt der Juman ++. Die Originalversion lebt in der Legacy -Filiale.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 1.13MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

jumanpp

Was ist Juman ++

Installation

Systemanforderungen

Gebäude aus einem Paket

Gebäude aus Git

Verwendung

Schneller Start

Hauptoptionen

Eingang

Training Jumandisches Modell

Andere

DEMO

Extrahieren von Diffs, die durch Strahlkonfigurationen verursacht werden

Partial Annotation Tool

Leistungsnotizen

Verwenden Sie Juman ++, um Ihren eigenen morphologischen Analysator zu erstellen

Veröffentlichungen und Folien

Autoren

Anerkennung

Beachten

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express