nagisa 다운로드 nagisa 소스 코드 다운로드

nagisa

기타 소스코드

v0.2.11

다운로드

Nagisa는 일본어 단어 세분화/pos 태깅을위한 파이썬 모듈입니다. 간단하고 사용하기 쉬운 도구로 설계되었습니다.

이 도구에는 다음과 같은 기능이 있습니다.

반복 신경 네트워크를 기반으로합니다.
단어 세분화 모델은 문자 및 단어 수준 기능을 사용합니다 [池田+].
Pos-tagging 모델은 태그 사전 정보 [inoue+]를 사용합니다.

자세한 내용은 다음 링크를 참조하십시오.

Nagisa의 중지 단어는 여기에서 제공됩니다.
Pycon JP (2022)의 프레젠테이션 슬라이드는 여기에서 제공됩니다.
일본어 기사는 여기에 있습니다.
문서는 여기에서 제공됩니다.

설치

Nagisa를 사용하려면 Linux에는 Python 버전 3.6 ~ 3.12 또는 MacOS (Intel 또는 M1/M2)에서 Python 버전 3.9 ~ 3.12가 있어야합니다. 다음 명령으로 Nagisa를 설치할 수 있습니다.

pip install nagisa

Windows 사용자의 경우 Python 3.6, 3.7 또는 3.8 (64 비트)으로 실행하십시오. Linux (WSL) 용 Windows 서브 시스템과도 호환됩니다.

기본 사용

일본어를위한 단어 세분화 및 pos 태깅 샘플.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

사후 처리 기능

특정 POS 태그에 의해 필터 및 Extarct 단어.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

쉽게 사용자 사전을 추가하십시오.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

모델을 훈련하십시오

NAGISA (V0.2.0+)는 공동 단어 세분화 및 서열 레이블 (예 : POS- 태깅, NER) 모델을위한 간단한 열차 방법을 제공합니다.

Train/Dev/Test 파일의 형식은 TSV입니다. 각 줄은 word 와 tag 이며 한 줄은 word t (탭) tag 로 표시됩니다. 문장 사이에 EOS를 넣습니다. 샘플 데이터 세트 및 튜토리얼 (범용 종속성을위한 모델 교육)을 참조하십시오.

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN