Penganalisa morfologis baru yang mempertimbangkan masuk akal semantik sekuens kata dengan menggunakan model bahasa jaringan saraf berulang (RNNLM). Versi 2 memiliki akurasi yang lebih baik dan sangat (> 250x) meningkatkan kecepatan analisis daripada Juman ++ asli.
sudo apt install libprotobuf-dev protobuf-compilerBaca dokumen ini untuk turunan CentOS dan RHEL atau alternatif non-cmake.
Unduh paket dari rilis
Penting : Unduhan harus sekitar 300 MB. Jika tidak, Anda mungkin telah mengunduh snapshot sumber yang tidak berisi model.
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > Penting : Hanya distribusi paket yang berisi model pretrained dan dapat digunakan untuk analisis. Versi GIT saat ini tidak kompatibel dengan model 2.0-RC1 dan 2.0-RC2.
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
Gunakan --help untuk melihat lebih banyak opsi.
Juman ++ hanya dapat menangani teks yang dikodekan UTF-8 sebagai input. Baris yang dimulai dengan # akan ditafsirkan sebagai komentar.
Satu set skrip untuk model pelatihan jumandic tersedia di repositori ini. Dimungkinkan untuk memodifikasi kamus sistem untuk menambahkan entri lain ke model terlatih.
Perhatian : Anda perlu memiliki akses ke Mainichi Shinbun untuk tahun 1995 untuk dapat menggunakan Kyoto Univeristy Corpus untuk pelatihan.
Anda dapat bermain di sekitar demo web kami yang menampilkan subset dari seluruh kisi. Demo masih menggunakan V1 tetapi, akan segera diperbarui ke V2.
Anda dapat melihat kalimat di mana dua konfigurasi balok yang berbeda menghasilkan analisis yang berbeda. src/jumandic/jpp_jumandic_pathdiff biner (sumber) (relatif terhadap root kompilasi) melakukannya. Satu-satunya hal khusus jumandis di sini adalah penggunaan inferensi model linier yang dihasilkan kode.
Gunakan biner sebagai jpp_jumandic_pathdiff <model> <input> > <output> .
Output akan berada dalam format anotasi parsial dengan hasil balok penuh adalah tag aktual dan hasil balok yang dipangkas ditulis sebagai komentar.
Contoh:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
Kami juga memiliki alat anotasi parsial. Silakan lihat https://github.com/eiennohito/nlp-tools-demo untuk detailnya.
Untuk mendapatkan kinerja terbaik, Anda perlu membangun dengan set instruksi yang diperluas. Jika Anda berencana untuk menggunakan Juman ++ hanya secara lokal, tentukan -DCMAKE_CXX_FLAGS="-march=native" .
Bekerja paling baik di Intel Haswell dan prosesor yang lebih baru (karena ekstensi set instruksi FMA dan BMI).
Juman ++ adalah alat umum. Itu tidak tergantung pada bahasa Jumandic atau Jepang (meskipun ada beberapa fungsionalitas khusus Jepang). Lihat proyek tutorial ini yang menunjukkan cara menerapkan sesuatu yang mirip dengan input teks T9 untuk kasus tersebut ketika tidak ada batasan kata dalam teks input.
Tentang model itu sendiri: Analisis morfologis untuk bahasa yang tidak diegmentasi menggunakan model bahasa jaringan saraf berulang . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. Tautan EMNLP 2015, Bibtex.
V2 Improvments: Juman ++ V2: Penganalisa morfologis yang praktis dan modern . Arseny Tolmachev dan Kurohashi Sadao. Prosiding Pertemuan Tahunan Dua Puluh Empat dari Asosiasi untuk Pemrosesan Bahasa Alami. Maret 2018, Okayama, Jepang. (pdf, slide)
Lokakarya Analisis Morfologis di ANLP2018 Slide: 形態素解析システム Juman ++. 河原 大輔, Arseny Tolmachev. (dalam bahasa Jepang) slide.
Juman ++: Toolkit analisis morfologis untuk Scriptio Continua. Arseny Tolmachev, Daisuke Kawahara dan Sadao Kurohashi. EMNLP 2018, Brussels. PDF, poster, Bibtex.
Desain dan struktur toolkit penganalisa morfologis Juman ++. Arseny Tolmachev, Daisuke Kawahara, Sadao Kurohashi. Jurnal Pemrosesan Bahasa Alami, (Kertas, Bibtex).
Jika Anda menggunakan Juman ++ V1 dalam pengaturan akademik, maka silakan mengutip pekerjaan pertama (EMNLP2015). Jika Anda menggunakan Juman ++ V2, maka silakan kutip makalah pertama dan keempat (EMNLP2018).
Daftar semua perpustakaan yang digunakan oleh Juman ++ ada di sini.
Ini adalah cabang untuk penulisan ulang Juman ++. Versi aslinya hidup di cabang Legacy.