Unduh jumanpp - Unduh Kode Sumber jumanpp

jumanpp

Kode sumber lainnya

1.0.0

Unduh

Apa itu Juman ++

Penganalisa morfologis baru yang mempertimbangkan masuk akal semantik sekuens kata dengan menggunakan model bahasa jaringan saraf berulang (RNNLM). Versi 2 memiliki akurasi yang lebih baik dan sangat (> 250x) meningkatkan kecepatan analisis daripada Juman ++ asli.

Instalasi

Persyaratan sistem

OS: Linux, MacOS X atau Windows.
Kompiler: C ++ 14 Kompatibel
- Misalnya GCC 5.1+, Clang 3.4+, MSVC 2017
- Kami menguji GCC dan dentang pada Linux/MacOS, MINGW64-GCC dan MSVC2017 di Windows

Cmake v3.1 atau lebih baru
Untuk ubuntu22.04, Anda perlu menginstal paket tambahan sebagai berikut: sudo apt install libprotobuf-dev protobuf-compiler

Baca dokumen ini untuk turunan CentOS dan RHEL atau alternatif non-cmake.

Membangun dari sebuah paket

Unduh paket dari rilis

Penting : Unduhan harus sekitar 300 MB. Jika tidak, Anda mungkin telah mengunduh snapshot sumber yang tidak berisi model.

$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake .. 
  -DCMAKE_BUILD_TYPE=Release  # you want to do this for performance
  -DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism >

Bangunan dari git

Penting : Hanya distribusi paket yang berisi model pretrained dan dapat digunakan untuk analisis. Versi GIT saat ini tidak kompatibel dengan model 2.0-RC1 dan 2.0-RC2.

$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j

Penggunaan

Awal yang cepat

 % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS

Opsi utama

 usage: jumanpp [options] 
  -s, --specifics              lattice format output (unsigned int [=5])
  --beam <int>                 set local beam width used in analysis (unsigned int [=5])
  -v, --version                print version
  -h, --help                   print this message
  --model <file>               specify a model location

Gunakan --help untuk melihat lebih banyak opsi.

Masukan

Juman ++ hanya dapat menangani teks yang dikodekan UTF-8 sebagai input. Baris yang dimulai dengan # akan ditafsirkan sebagai komentar.

Model Jumandic Pelatihan

Satu set skrip untuk model pelatihan jumandic tersedia di repositori ini. Dimungkinkan untuk memodifikasi kamus sistem untuk menambahkan entri lain ke model terlatih.

Perhatian : Anda perlu memiliki akses ke Mainichi Shinbun untuk tahun 1995 untuk dapat menggunakan Kyoto Univeristy Corpus untuk pelatihan.

Lainnya

Demo

Anda dapat bermain di sekitar demo web kami yang menampilkan subset dari seluruh kisi. Demo masih menggunakan V1 tetapi, akan segera diperbarui ke V2.

Mengekstraksi diff yang disebabkan oleh konfigurasi balok

Anda dapat melihat kalimat di mana dua konfigurasi balok yang berbeda menghasilkan analisis yang berbeda. src/jumandic/jpp_jumandic_pathdiff biner (sumber) (relatif terhadap root kompilasi) melakukannya. Satu-satunya hal khusus jumandis di sini adalah penggunaan inferensi model linier yang dihasilkan kode.

Gunakan biner sebagai jpp_jumandic_pathdiff <model> <input> > <output> .

Output akan berada dalam format anotasi parsial dengan hasil balok penuh adalah tag aktual dan hasil balok yang dipangkas ditulis sebagai komentar.

Contoh:

 # scores: -0.602687 -1.20004
# 子がい        pos:名詞        subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
        子      pos:名詞        subpos:普通名詞 <------- full beam result
        が      pos:助詞        subpos:格助詞
        い      baseform:いる   conjtype:母音動詞       pos:動詞        conjform:基本連用形
ます

Alat anotasi parsial

Kami juga memiliki alat anotasi parsial. Silakan lihat https://github.com/eiennohito/nlp-tools-demo untuk detailnya.

Catatan Kinerja

Untuk mendapatkan kinerja terbaik, Anda perlu membangun dengan set instruksi yang diperluas. Jika Anda berencana untuk menggunakan Juman ++ hanya secara lokal, tentukan -DCMAKE_CXX_FLAGS="-march=native" .

Bekerja paling baik di Intel Haswell dan prosesor yang lebih baru (karena ekstensi set instruksi FMA dan BMI).

Menggunakan Juman ++ untuk membuat penganalisa morfologis Anda sendiri

Juman ++ adalah alat umum. Itu tidak tergantung pada bahasa Jumandic atau Jepang (meskipun ada beberapa fungsionalitas khusus Jepang). Lihat proyek tutorial ini yang menunjukkan cara menerapkan sesuatu yang mirip dengan input teks T9 untuk kasus tersebut ketika tidak ada batasan kata dalam teks input.

Publikasi dan slide

Tentang model itu sendiri: Analisis morfologis untuk bahasa yang tidak diegmentasi menggunakan model bahasa jaringan saraf berulang . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. Tautan EMNLP 2015, Bibtex.
V2 Improvments: Juman ++ V2: Penganalisa morfologis yang praktis dan modern . Arseny Tolmachev dan Kurohashi Sadao. Prosiding Pertemuan Tahunan Dua Puluh Empat dari Asosiasi untuk Pemrosesan Bahasa Alami. Maret 2018, Okayama, Jepang. (pdf, slide)
Lokakarya Analisis Morfologis di ANLP2018 Slide: 形態素解析システム Juman ++. 河原大輔, Arseny Tolmachev. (dalam bahasa Jepang) slide.
Juman ++: Toolkit analisis morfologis untuk Scriptio Continua. Arseny Tolmachev, Daisuke Kawahara dan Sadao Kurohashi. EMNLP 2018, Brussels. PDF, poster, Bibtex.
Desain dan struktur toolkit penganalisa morfologis Juman ++. Arseny Tolmachev, Daisuke Kawahara, Sadao Kurohashi. Jurnal Pemrosesan Bahasa Alami, (Kertas, Bibtex).

Jika Anda menggunakan Juman ++ V1 dalam pengaturan akademik, maka silakan mengutip pekerjaan pertama (EMNLP2015). Jika Anda menggunakan Juman ++ V2, maka silakan kutip makalah pertama dan keempat (EMNLP2018).