
Nagisa adalah modul Python untuk segmentasi kata Jepang/tag-tagging. Ini dirancang untuk menjadi alat yang sederhana dan mudah digunakan.
Alat ini memiliki fitur berikut.
Untuk detail lebih lanjut, lihat tautan berikut.
Untuk menggunakan Nagisa, Anda harus memiliki versi Python 3.6 hingga 3.12 pada versi Linux, atau Python 3.9 hingga 3.12 pada macOS (Intel atau M1/M2). Anda dapat menginstal Nagisa dengan perintah berikut.
pip install nagisaUntuk pengguna Windows, silakan jalankan dengan Python 3.6, 3.7 atau 3.8 (64bit). Ini juga kompatibel dengan subsistem Windows untuk Linux (WSL).
Sampel Segmentasi Kata dan Pos-Tagging untuk Jepang.
import nagisa
text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞
# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']
# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']Filter dan kata -kata extarct dengan tag POS tertentu.
# Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞
# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞
# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']Tambahkan kamus pengguna dengan cara yang mudah.
# default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号
# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号Nagisa (V0.2.0+) menyediakan metode kereta sederhana untuk model Segmentasi Kata Bersama dan Labeling Urutan (misalnya, Pos-Tagging, NER).
Format file kereta/dev/uji adalah TSV. Setiap baris adalah word dan tag dan satu baris diwakili oleh tag word t (tab). Perhatikan bahwa Anda menempatkan EOS di antara kalimat. Lihat Dataset Sampel dan Tutorial (Latih model untuk dependensi universal).
$ cat sample.train
唯一 NOUN
の ADP
趣味 NOU
は ADP
料理 NOUN
EOS
とても ADV
おいしかっ ADJ
た AUX
です AUX
。 PUNCT
EOS
ドル NOUN
は ADP
主要 ADJ
通貨 NOUN
EOS
# After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )
# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )
text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN