nagisaダウンロードnagisaソースコードのダウンロード

nagisa

その他のソースコード

v0.2.11

ダウンロード

Nagisaは、日本語の単語セグメンテーション/POSタギング用のPythonモジュールです。シンプルで使いやすいツールになるように設計されています。

このツールには次の機能があります。

再発性ニューラルネットワークに基づいています。
単語セグメンテーションモデルでは、文字レベルと単語レベルの特徴[池田+]を使用します。
POSタギングモデルでは、タグ辞書情報[inoue+]を使用しています。

詳細については、次のリンクを参照してください。

Nagisaのストップワードはこちらから入手できます。
Pycon JP（2022）でのプレゼンテーションスライドはこちらから入手できます。
日本語の記事はこちらから入手できます。
ドキュメントはこちらから入手できます。

インストール

Nagisaを使用するには、LinuxでPythonバージョン3.6から3.12、またはMacOS（IntelまたはM1/M2）でPythonバージョン3.9から3.12が必要です。次のコマンドでNagisaをインストールできます。

pip install nagisa

Windowsユーザーの場合は、Python 3.6、3.7、または3.8（64bit）で実行してください。また、Linux用のWindowsサブシステム（WSL）と互換性があります。

基本的な使用法

日本語の単語セグメンテーションとポーズタグのサンプル。

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

後処理機能

特定のPOSタグで単語をフィルタリングし、拡張します。

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

ユーザー辞書を簡単に追加します。

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

モデルを訓練します

Nagisa（V0.2.0+）は、共同単語のセグメンテーションとシーケンスラベル付け（POSタグ、NER）モデルのための簡単な列車方法を提供します。

Train/Dev/Testファイルの形式はTSVです。各行はwordとtagであり、1つの行はword T（TAB） tagで表されます。文の間にEOSを配置することに注意してください。サンプルデータセットとチュートリアルを参照してください（ユニバーサル依存関係のモデルをトレーニングしてください）。

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN