تنزيل hazm - تنزيل رمز المصدر hazm

hazm

شفرة المصدر الأخرى

Hazm 0.10.0

تنزيل

Hazm - مجموعة أدوات NLP الفارسية

تقييم
مقدمة
سمات
تثبيت
نماذج ما قبل
الاستخدام
الوثائق
خطر بلغات أخرى
مساهمة
شكرًا
- كود مساهمة
- آحرون

تقييم

اسم الوحدة
REPORENCYPARSER	85.6 ٪
ما بعد	98.8 ٪
مجموعة	93.4 ٪
المعركة	89.9 ٪

	متري	قيمة
spacypostagger	دقة	0.99250
	يتذكر	0.99249
	F1 درجة	0.99249
اكتشاف EZ في spacypostagger	دقة	0.99301
	يتذكر	0.99297
	F1 درجة	0.99298
Spacychunker	دقة	96.53 ٪
	F-Measure	95.00 ٪
	يتذكر	95.17 ٪
	دقة	94.83 ٪
SpacyDependenCyparser	دقة توك	99.06
	UAS	92.30
	لاس	89.15
	أرسلت الدقة	98.84
	أرسل استدعاء	99.38
	أرسلت f-measure	99.11

مقدمة

Hazm هي مكتبة Python لأداء مهام معالجة اللغة الطبيعية على النص الفارسي. إنه يقدم ميزات مختلفة لتحليل النص الفارسي ومعالجته. يمكنك استخدام HAZM لتطبيع النص ، ورمز الجمل والكلمات ، وتجهيز الكلمات ، وتعيين علامات جزء من الكلام ، وتحديد علاقات التبعية ، وإنشاء كلمات وجملة ، أو قراءة الشركات الفارسية الشهيرة.

سمات

التطبيع: يحول النص إلى نموذج قياسي ، مثل إزالة العوامل السكانية ، وتصحيح التباعد ، إلخ.
الرمز المميز: ينقسم النص إلى جمل وكلمات.
lemmatization: يقلل الكلمات إلى أشكال قاعدتها.
علامات POS: يعين جزء من الكلام لكل كلمة.
تحليل التبعية: يحدد العلاقات النحوية بين الكلمات.
التضمين: يخلق تمثيلات متجه للكلمات والجمل.
القراءة الفارسية Corpora: بسهولة اقرأ الشركات الفارسية الشهيرة مع البرامج النصية الجاهزة والحد الأدنى من الكود.

تثبيت

لتثبيت أحدث إصدار من HAZM ، قم بتشغيل الأمر التالي في المحطة الخاصة بك:

 pip install hazm

بدلاً من ذلك ، يمكنك تثبيت آخر تحديث من Github (قد يكون هذا الإصدار غير مستقر وعربات التي تجرها الدواب):

 pip install git+https://github.com/roshan-research/hazm.git

نماذج ما قبل

أخيرًا إذا كنت ترغب في استخدام نماذجنا المسبقة ، يمكنك تنزيلها من الروابط أدناه:

اسم الوحدة	مقاس
تنزيل WordEmbedding	~ 5 غيغابايت
تنزيل sentembedding	~ 1 غيغابايت
تنزيل postagger	~ 18 ميغابايت
تنزيل REPORENCYPARSER	~ 15 ميغابايت
تحميل chunker	~ 4 ميغابايت
قم بتنزيل spacy_pos_tagger_parsbertpostagger	~ 630 ميغابايت
تنزيل spacy_pos_tagger_parsbertpostagger_trained_on_95 ٪	~ 630 ميغابايت
تنزيل spacy_chunker_uncased_bert	~ 650 ميجابايت
تنزيل spacy_chunker_parsbert	~ 630 ميغابايت
تنزيل spacy_dependency_parser	~ 630 ميغابايت

الاستخدام

 > >> from hazm import *

> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند' )
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]

> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتاب‌ها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'می‌روم' )
'رفت#رو'

> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب می‌خوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'می‌خوانیم' , 'V' )]

> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]

> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )] 

> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
  ( NP نامه / NOUN , EZ ایشان / PRON )
  ( POSTP را / ADP )
  ( VP دریافت / NOUN داشتم / VERB )
  . / PUNCT )

> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'

> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' ))
< DependencyGraph with 8 nodes >

> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' )])

>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثه‌ای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپ‌بنزین‌ها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
    [
      'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
      'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
      'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
      ]
)

الوثائق

تفضل بزيارة https://roshan-ai.ir/hazm/docs لعرض الوثائق الكاملة.

خطر بلغات أخرى

إخلاء المسئولية: لم يتم تطوير هذه المنافذ أو الحفاظ عليها من قبل روشان. قد لا يكون لديهم نفس الوظيفة أو الجودة مثل الخطر الأصلي ..

Jhazm : ميناء Java of Hazm
NHAZM : AC# منفذ HAZM

مساهمة

نرحب ونقدر أي مساهمات في هذا الريبو ، مثل تقارير الأخطاء ، وطلبات الميزات ، وتحسينات الرمز ، وتحديثات الوثائق ، وما إلى ذلك ، يرجى اتباع إرشادات المساهمة عند المساهمة. يمكنك فتح مشكلة ، وتخلي عن الريبو ، وكتابة الرمز الخاص بك ، وإنشاء طلب سحب وانتظار مراجعة وتعليقات. شكرا لك على اهتمامك ودعمك في هذا الريبو!