hazm
Hazm 0.10.0
| 模块名称 | |
|---|---|
| 依赖类动物 | 85.6% |
| postagger | 98.8% |
| 小伙子 | 93.4% |
| lemmatizer | 89.9% |
| 公制 | 价值 | |
|---|---|---|
| 飞机柱 | 精确 | 0.99250 |
| 记起 | 0.99249 | |
| F1得分 | 0.99249 | |
| EZ检测到PacyPostagger | 精确 | 0.99301 |
| 记起 | 0.99297 | |
| F1得分 | 0.99298 | |
| Spacychunker | 准确性 | 96.53% |
| F量 | 95.00% | |
| 记起 | 95.17% | |
| 精确 | 94.83% | |
| spacydipendencyparser | 托克准确性 | 99.06 |
| UAS | 92.30 | |
| 拉斯 | 89.15 | |
| 发送精度 | 98.84 | |
| 发送召回 | 99.38 | |
| 发送F量 | 99.11 |
HAZM是一个Python库,可在波斯文本上执行自然语言处理任务。它提供了分析,处理和理解波斯文本的各种功能。您可以使用HAZM将文本归一化,令牌化句子和单词,诱人的单词,分配言论的一部分标签,识别依赖关系,创建单词和句子嵌入或阅读流行的波斯语料库。
要安装最新版本的HAZM,请在终端中运行以下命令:
pip install hazm
另外,您可以安装GitHub的最新更新(此版本可能不稳定且错误):
pip install git+https://github.com/roshan-research/hazm.git
最后,如果您想使用我们验证的型号,则可以从下面的链接下载它:
| 模块名称 | 尺寸 |
|---|---|
| 下载Wordembedding | 〜5 GB |
| 下载Sentembedding | 〜1 GB |
| 下载Postagger | 〜18 MB |
| 下载依赖类动物 | 〜15 MB |
| 下载Chunker | 〜4 MB |
| 下载spacy_pos_tagger_parsbertpostagger | 〜630 MB |
| 下载spacy_pos_tagger_parsbertpostagger_trained_on_95% | 〜630 MB |
| 下载spacy_chunker_uncased_bert | 〜650 MB |
| 下载spacy_chunker_parsbert | 〜630 MB |
| 下载spacy_dependency_parser | 〜630 MB |
> >> from hazm import *
> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند' )
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]
> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتابها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'میروم' )
'رفت#رو'
> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب میخوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'میخوانیم' , 'V' )]
> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
( NP نامه / NOUN , EZ ایشان / PRON )
( POSTP را / ADP )
( VP دریافت / NOUN داشتم / VERB )
. / PUNCT )
> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'
> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگها برای که به صدا درمیآید؟' ))
< DependencyGraph with 8 nodes >
> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگها برای که به صدا درمیآید؟' )])
>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثهای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپبنزینها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
[
'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
]
)请访问https://roshan-ai.ir/hazm/docs查看完整的文档。
免责声明:这些端口不是由Roshan开发或维护的。它们可能没有与原始Hazm相同的功能或质量。
我们欢迎并感谢对此存储库的任何贡献,例如错误报告,功能请求,代码改进,文档更新等。请在贡献时遵循贡献指南。您可以打开一个问题,分叉存储库,编写代码,创建拉动请求并等待审核和反馈。感谢您对此仓库的关注和支持!