تنزيل nagisa - تنزيل رمز المصدر nagisa

nagisa

شفرة المصدر الأخرى

v0.2.11

تنزيل

Nagisa هي وحدة Python لتجزئة الكلمات اليابانية/نقاط البيع. إنه مصمم ليكون أداة بسيطة وسهلة الاستخدام.

تحتوي هذه الأداة على الميزات التالية.

بناء على الشبكات العصبية المتكررة.
يستخدم نموذج تجزئة الكلمات ميزات على مستوى الأحرف والكلمات [池田+].
يستخدم نموذج تقوية POS معلومات قاموس العلامات [inoue+].

لمزيد من التفاصيل ، ارجع إلى الروابط التالية.

تتوفر كلمات إيقاف Nagisa هنا.
تتوفر شريحة العرض التقديمي في Pycon JP (2022) هنا.
المقال باللغة اليابانية متاح هنا.
الوثائق متوفرة هنا.

تثبيت

لاستخدام Nagisa ، تحتاج إلى إصدارات Python من 3.6 إلى 3.12 على Linux ، أو إصدارات Python 3.9 إلى 3.12 على MacOS (Intel أو M1/M2). يمكنك تثبيت Nagisa مع الأمر التالي.

pip install nagisa

لمستخدمي Windows ، يرجى تشغيله باستخدام Python 3.6 أو 3.7 أو 3.8 (64 بت). كما أنه متوافق مع نظام Windows الفرعي لـ Linux (WSL).

الاستخدام الأساسي

عينة من تجزئة الكلمات وقياس نقاط البيع لليابانية.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

وظائف ما بعد المعالجة

تصفية الكلمات والكلمات من خلال علامات نقاط البيع المحددة.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

أضف قاموس المستخدم بطريقة سهلة.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

تدريب نموذج

يوفر Nagisa (v0.2.0+) طريقة قطار بسيطة لتجزئة الكلمات المشتركة ووضع تسلسل (على سبيل المثال ، علامات POS ، NER).

تنسيق ملفات القطار/dev/test هو TSV. كل سطر هو word tag ويتم تمثيل سطر واحد tag word T (TAB). لاحظ أنك وضعت EOS بين الجمل. ارجع إلى عينة من مجموعات البيانات والبرنامج التعليمي (تدريب نموذج لتبعيات عالمية).

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN

يوسع

معلومات إضافية

الإصدار v0.2.11
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-16
الحجم 20.31MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل