Unduh nagisa - Unduh Kode Sumber nagisa

nagisa

Kode sumber lainnya

v0.2.11

Unduh

Nagisa adalah modul Python untuk segmentasi kata Jepang/tag-tagging. Ini dirancang untuk menjadi alat yang sederhana dan mudah digunakan.

Alat ini memiliki fitur berikut.

Berdasarkan jaringan saraf berulang.
Model Segmentasi Kata menggunakan fitur-fitur level karakter dan kata [池田+].
Model Pos-Tagging menggunakan informasi kamus tag [Inoue+].

Untuk detail lebih lanjut, lihat tautan berikut.

Kata -kata berhenti untuk Nagisa tersedia di sini.
Slide presentasi di Pycon JP (2022) tersedia di sini.
Artikel dalam bahasa Jepang tersedia di sini.
Dokumentasi tersedia di sini.

Instalasi

Untuk menggunakan Nagisa, Anda harus memiliki versi Python 3.6 hingga 3.12 pada versi Linux, atau Python 3.9 hingga 3.12 pada macOS (Intel atau M1/M2). Anda dapat menginstal Nagisa dengan perintah berikut.

pip install nagisa

Untuk pengguna Windows, silakan jalankan dengan Python 3.6, 3.7 atau 3.8 (64bit). Ini juga kompatibel dengan subsistem Windows untuk Linux (WSL).

Penggunaan dasar

Sampel Segmentasi Kata dan Pos-Tagging untuk Jepang.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

Fungsi pasca pemrosesan

Filter dan kata -kata extarct dengan tag POS tertentu.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

Tambahkan kamus pengguna dengan cara yang mudah.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

Latih model

Nagisa (V0.2.0+) menyediakan metode kereta sederhana untuk model Segmentasi Kata Bersama dan Labeling Urutan (misalnya, Pos-Tagging, NER).

Format file kereta/dev/uji adalah TSV. Setiap baris adalah word dan tag dan satu baris diwakili oleh tag word t (tab). Perhatikan bahwa Anda menempatkan EOS di antara kalimat. Lihat Dataset Sampel dan Tutorial (Latih model untuk dependensi universal).

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN

Memperluas

Informasi Tambahan

Versi v0.2.11
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 20.31MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua