nagisa
v0.2.11

Nagisa는 일본어 단어 세분화/pos 태깅을위한 파이썬 모듈입니다. 간단하고 사용하기 쉬운 도구로 설계되었습니다.
이 도구에는 다음과 같은 기능이 있습니다.
자세한 내용은 다음 링크를 참조하십시오.
Nagisa를 사용하려면 Linux에는 Python 버전 3.6 ~ 3.12 또는 MacOS (Intel 또는 M1/M2)에서 Python 버전 3.9 ~ 3.12가 있어야합니다. 다음 명령으로 Nagisa를 설치할 수 있습니다.
pip install nagisaWindows 사용자의 경우 Python 3.6, 3.7 또는 3.8 (64 비트)으로 실행하십시오. Linux (WSL) 용 Windows 서브 시스템과도 호환됩니다.
일본어를위한 단어 세분화 및 pos 태깅 샘플.
import nagisa
text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞
# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']
# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']특정 POS 태그에 의해 필터 및 Extarct 단어.
# Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞
# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞
# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']쉽게 사용자 사전을 추가하십시오.
# default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号
# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号NAGISA (V0.2.0+)는 공동 단어 세분화 및 서열 레이블 (예 : POS- 태깅, NER) 모델을위한 간단한 열차 방법을 제공합니다.
Train/Dev/Test 파일의 형식은 TSV입니다. 각 줄은 word 와 tag 이며 한 줄은 word t (탭) tag 로 표시됩니다. 문장 사이에 EOS를 넣습니다. 샘플 데이터 세트 및 튜토리얼 (범용 종속성을위한 모델 교육)을 참조하십시오.
$ cat sample.train
唯一 NOUN
の ADP
趣味 NOU
は ADP
料理 NOUN
EOS
とても ADV
おいしかっ ADJ
た AUX
です AUX
。 PUNCT
EOS
ドル NOUN
は ADP
主要 ADJ
通貨 NOUN
EOS
# After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )
# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )
text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN