hazm
Hazm 0.10.0
| 模塊名稱 | |
|---|---|
| 依賴類動物 | 85.6% |
| postagger | 98.8% |
| 小伙子 | 93.4% |
| lemmatizer | 89.9% |
| 公制 | 價值 | |
|---|---|---|
| 飛機柱 | 精確 | 0.99250 |
| 記起 | 0.99249 | |
| F1得分 | 0.99249 | |
| EZ檢測到PacyPostagger | 精確 | 0.99301 |
| 記起 | 0.99297 | |
| F1得分 | 0.99298 | |
| Spacychunker | 準確性 | 96.53% |
| F量 | 95.00% | |
| 記起 | 95.17% | |
| 精確 | 94.83% | |
| spacydipendencyparser | 托克準確性 | 99.06 |
| UAS | 92.30 | |
| 拉斯 | 89.15 | |
| 發送精度 | 98.84 | |
| 發送召回 | 99.38 | |
| 發送F量 | 99.11 |
HAZM是一個Python庫,可在波斯文本上執行自然語言處理任務。它提供了分析,處理和理解波斯文本的各種功能。您可以使用HAZM將文本歸一化,令牌化句子和單詞,誘人的單詞,分配言論的一部分標籤,識別依賴關係,創建單詞和句子嵌入或閱讀流行的波斯語料庫。
要安裝最新版本的HAZM,請在終端中運行以下命令:
pip install hazm
另外,您可以安裝GitHub的最新更新(此版本可能不穩定且錯誤):
pip install git+https://github.com/roshan-research/hazm.git
最後,如果您想使用我們驗證的型號,則可以從下面的鏈接下載它:
| 模塊名稱 | 尺寸 |
|---|---|
| 下載Wordembedding | 〜5 GB |
| 下載Sentembedding | 〜1 GB |
| 下載Postagger | 〜18 MB |
| 下載依賴類動物 | 〜15 MB |
| 下載Chunker | 〜4 MB |
| 下載spacy_pos_tagger_parsbertpostagger | 〜630 MB |
| 下載spacy_pos_tagger_parsbertpostagger_trained_on_95% | 〜630 MB |
| 下載spacy_chunker_uncased_bert | 〜650 MB |
| 下載spacy_chunker_parsbert | 〜630 MB |
| 下載spacy_dependency_parser | 〜630 MB |
> >> from hazm import *
> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند' )
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]
> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتابها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'میروم' )
'رفت#رو'
> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب میخوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'میخوانیم' , 'V' )]
> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
( NP نامه / NOUN , EZ ایشان / PRON )
( POSTP را / ADP )
( VP دریافت / NOUN داشتم / VERB )
. / PUNCT )
> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'
> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگها برای که به صدا درمیآید؟' ))
< DependencyGraph with 8 nodes >
> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگها برای که به صدا درمیآید؟' )])
>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثهای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپبنزینها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
[
'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
]
)請訪問https://roshan-ai.ir/hazm/docs查看完整的文檔。
免責聲明:這些端口不是由Roshan開發或維護的。它們可能沒有與原始Hazm相同的功能或質量。
我們歡迎並感謝對此存儲庫的任何貢獻,例如錯誤報告,功能請求,代碼改進,文檔更新等。請在貢獻時遵循貢獻指南。您可以打開一個問題,分叉存儲庫,編寫代碼,創建拉動請求並等待審核和反饋。感謝您對此倉庫的關注和支持!