
Nagisa est un module Python pour la segmentation des mots japonaise / le marais POS. Il est conçu pour être un outil simple et facile à utiliser.
Cet outil a les fonctionnalités suivantes.
Pour plus de détails, reportez-vous aux liens suivants.
Pour utiliser Nagisa, vous devez avoir des versions Python 3.6 à 3.12 sur Linux, ou Python Versions 3.9 à 3.12 sur macOS (Intel ou M1 / M2). Vous pouvez installer Nagisa avec la commande suivante.
pip install nagisaPour les utilisateurs de Windows, veuillez l'exécuter avec Python 3.6, 3.7 ou 3.8 (64 bits). Il est également compatible avec le sous-système Windows pour Linux (WSL).
Échantillon de segmentation des mots et de plafond de points de vente pour le japonais.
import nagisa
text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞
# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']
# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']Filtrez et extarte les mots par les balises POS spécifiques.
# Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞
# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞
# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']Ajoutez le dictionnaire utilisateur de manière facile.
# default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号
# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号Nagisa (V0.2.0 +) fournit une méthode de train simple pour un modèle de segmentation des mots et de séquences conjointe (par exemple, le modèle POS-Tagging, NER).
Le format des fichiers Train / Dev / Test est TSV. Chaque ligne est word et tag et une ligne est représentée par la tag word t (onglet). Notez que vous mettez des EOS entre les phrases. Reportez-vous aux exemples de jeux de données et au tutoriel (former un modèle pour les dépendances universelles).
$ cat sample.train
唯一 NOUN
の ADP
趣味 NOU
は ADP
料理 NOUN
EOS
とても ADV
おいしかっ ADJ
た AUX
です AUX
。 PUNCT
EOS
ドル NOUN
は ADP
主要 ADJ
通貨 NOUN
EOS
# After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )
# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )
text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN