hazm下載 - hazm源代碼下載

hazm

其他源碼

Hazm 0.10.0

下載

HAZM-波斯NLP工具包

評估
介紹
特徵
安裝
預驗證的模型
用法
文件
用其他語言hazm
貢獻
謝謝
- 代碼貢獻
- 其他的

評估

模塊名稱
依賴類動物	85.6％
postagger	98.8％
小伙子	93.4％
lemmatizer	89.9％

	公制	價值
飛機柱	精確	0.99250
	記起	0.99249
	F1得分	0.99249
EZ檢測到PacyPostagger	精確	0.99301
	記起	0.99297
	F1得分	0.99298
Spacychunker	準確性	96.53％
	F量	95.00％
	記起	95.17％
	精確	94.83％
spacydipendencyparser	托克準確性	99.06
	UAS	92.30
	拉斯	89.15
	發送精度	98.84
	發送召回	99.38
	發送F量	99.11

介紹

HAZM是一個Python庫，可在波斯文本上執行自然語言處理任務。它提供了分析，處理和理解波斯文本的各種功能。您可以使用HAZM將文本歸一化，令牌化句子和單詞，誘人的單詞，分配言論的一部分標籤，識別依賴關係，創建單詞和句子嵌入或閱讀流行的波斯語料庫。

特徵

歸一化：將文本轉換為標準形式，例如刪除變音符，校正間距等。
令牌化：將文本分成句子和單詞。
誘餌：將單詞簡化為基本形式。
POS標籤：將語音的一部分分配給每個單詞。
依賴性解析：識別單詞之間的句法關係。
嵌入：創建單詞和句子的向量表示。
波斯語料庫閱讀：易於閱讀具有現成的腳本和最小代碼的流行波斯語料庫。

安裝

要安裝最新版本的HAZM，請在終端中運行以下命令：

 pip install hazm

另外，您可以安裝GitHub的最新更新（此版本可能不穩定且錯誤）：

 pip install git+https://github.com/roshan-research/hazm.git

預驗證的模型

最後，如果您想使用我們驗證的型號，則可以從下面的鏈接下載它：

模塊名稱	尺寸
下載Wordembedding	〜5 GB
下載Sentembedding	〜1 GB
下載Postagger	〜18 MB
下載依賴類動物	〜15 MB
下載Chunker	〜4 MB
下載spacy_pos_tagger_parsbertpostagger	〜630 MB
下載spacy_pos_tagger_parsbertpostagger_trained_on_95％	〜630 MB
下載spacy_chunker_uncased_bert	〜650 MB
下載spacy_chunker_parsbert	〜630 MB
下載spacy_dependency_parser	〜630 MB

用法

 > >> from hazm import *

> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند' )
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]

> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتاب‌ها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'می‌روم' )
'رفت#رو'

> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب می‌خوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'می‌خوانیم' , 'V' )]

> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]

> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )] 

> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
  ( NP نامه / NOUN , EZ ایشان / PRON )
  ( POSTP را / ADP )
  ( VP دریافت / NOUN داشتم / VERB )
  . / PUNCT )

> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'

> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' ))
< DependencyGraph with 8 nodes >

> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' )])

>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثه‌ای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپ‌بنزین‌ها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
    [
      'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
      'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
      'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
      ]
)