Téléchargement nagisa - Téléchargement du code source nagisa

nagisa

Autre code source

v0.2.11

Télécharger

Nagisa est un module Python pour la segmentation des mots japonaise / le marais POS. Il est conçu pour être un outil simple et facile à utiliser.

Cet outil a les fonctionnalités suivantes.

Basé sur des réseaux de neurones récurrents.
Le modèle de segmentation des mots utilise des fonctionnalités au niveau des caractères et du mot [池田 +].
Le modèle de plafonnement de POS utilise des informations de dictionnaire TAG [Inoue +].

Pour plus de détails, reportez-vous aux liens suivants.

Les mots d'arrêt pour Nagisa sont disponibles ici.
La diapositive de présentation à Pycon JP (2022) est disponible ici.
L'article en japonais est disponible ici.
La documentation est disponible ici.

Installation

Pour utiliser Nagisa, vous devez avoir des versions Python 3.6 à 3.12 sur Linux, ou Python Versions 3.9 à 3.12 sur macOS (Intel ou M1 / M2). Vous pouvez installer Nagisa avec la commande suivante.

pip install nagisa

Pour les utilisateurs de Windows, veuillez l'exécuter avec Python 3.6, 3.7 ou 3.8 (64 bits). Il est également compatible avec le sous-système Windows pour Linux (WSL).

Utilisation de base

Échantillon de segmentation des mots et de plafond de points de vente pour le japonais.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

Fonctions de post-traitement

Filtrez et extarte les mots par les balises POS spécifiques.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

Ajoutez le dictionnaire utilisateur de manière facile.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

Former un modèle

Nagisa (V0.2.0 +) fournit une méthode de train simple pour un modèle de segmentation des mots et de séquences conjointe (par exemple, le modèle POS-Tagging, NER).

Le format des fichiers Train / Dev / Test est TSV. Chaque ligne est word et tag et une ligne est représentée par la tag word t (onglet). Notez que vous mettez des EOS entre les phrases. Reportez-vous aux exemples de jeux de données et au tutoriel (former un modèle pour les dépendances universelles).

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN

Développer

Informations supplémentaires

Version v0.2.11
Type Autre code source
Date de mise à jour 2025-04-16
taille 20.31MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout