| اسم الوحدة | |
|---|---|
| REPORENCYPARSER | 85.6 ٪ |
| ما بعد | 98.8 ٪ |
| مجموعة | 93.4 ٪ |
| المعركة | 89.9 ٪ |
| متري | قيمة | |
|---|---|---|
| spacypostagger | دقة | 0.99250 |
| يتذكر | 0.99249 | |
| F1 درجة | 0.99249 | |
| اكتشاف EZ في spacypostagger | دقة | 0.99301 |
| يتذكر | 0.99297 | |
| F1 درجة | 0.99298 | |
| Spacychunker | دقة | 96.53 ٪ |
| F-Measure | 95.00 ٪ | |
| يتذكر | 95.17 ٪ | |
| دقة | 94.83 ٪ | |
| SpacyDependenCyparser | دقة توك | 99.06 |
| UAS | 92.30 | |
| لاس | 89.15 | |
| أرسلت الدقة | 98.84 | |
| أرسل استدعاء | 99.38 | |
| أرسلت f-measure | 99.11 |
Hazm هي مكتبة Python لأداء مهام معالجة اللغة الطبيعية على النص الفارسي. إنه يقدم ميزات مختلفة لتحليل النص الفارسي ومعالجته. يمكنك استخدام HAZM لتطبيع النص ، ورمز الجمل والكلمات ، وتجهيز الكلمات ، وتعيين علامات جزء من الكلام ، وتحديد علاقات التبعية ، وإنشاء كلمات وجملة ، أو قراءة الشركات الفارسية الشهيرة.
لتثبيت أحدث إصدار من HAZM ، قم بتشغيل الأمر التالي في المحطة الخاصة بك:
pip install hazm
بدلاً من ذلك ، يمكنك تثبيت آخر تحديث من Github (قد يكون هذا الإصدار غير مستقر وعربات التي تجرها الدواب):
pip install git+https://github.com/roshan-research/hazm.git
أخيرًا إذا كنت ترغب في استخدام نماذجنا المسبقة ، يمكنك تنزيلها من الروابط أدناه:
| اسم الوحدة | مقاس |
|---|---|
| تنزيل WordEmbedding | ~ 5 غيغابايت |
| تنزيل sentembedding | ~ 1 غيغابايت |
| تنزيل postagger | ~ 18 ميغابايت |
| تنزيل REPORENCYPARSER | ~ 15 ميغابايت |
| تحميل chunker | ~ 4 ميغابايت |
| قم بتنزيل spacy_pos_tagger_parsbertpostagger | ~ 630 ميغابايت |
| تنزيل spacy_pos_tagger_parsbertpostagger_trained_on_95 ٪ | ~ 630 ميغابايت |
| تنزيل spacy_chunker_uncased_bert | ~ 650 ميجابايت |
| تنزيل spacy_chunker_parsbert | ~ 630 ميغابايت |
| تنزيل spacy_dependency_parser | ~ 630 ميغابايت |
> >> from hazm import *
> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند' )
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]
> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتابها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'میروم' )
'رفت#رو'
> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب میخوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'میخوانیم' , 'V' )]
> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
( NP نامه / NOUN , EZ ایشان / PRON )
( POSTP را / ADP )
( VP دریافت / NOUN داشتم / VERB )
. / PUNCT )
> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'
> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگها برای که به صدا درمیآید؟' ))
< DependencyGraph with 8 nodes >
> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگها برای که به صدا درمیآید؟' )])
>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثهای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپبنزینها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
[
'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
]
)تفضل بزيارة https://roshan-ai.ir/hazm/docs لعرض الوثائق الكاملة.
إخلاء المسئولية: لم يتم تطوير هذه المنافذ أو الحفاظ عليها من قبل روشان. قد لا يكون لديهم نفس الوظيفة أو الجودة مثل الخطر الأصلي ..
نرحب ونقدر أي مساهمات في هذا الريبو ، مثل تقارير الأخطاء ، وطلبات الميزات ، وتحسينات الرمز ، وتحديثات الوثائق ، وما إلى ذلك ، يرجى اتباع إرشادات المساهمة عند المساهمة. يمكنك فتح مشكلة ، وتخلي عن الريبو ، وكتابة الرمز الخاص بك ، وإنشاء طلب سحب وانتظار مراجعة وتعليقات. شكرا لك على اهتمامك ودعمك في هذا الريبو!