hazm下载 - hazm源代码下载

hazm

其他源码

Hazm 0.10.0

下载

HAZM-波斯NLP工具包

评估
介绍
特征
安装
预验证的模型
用法
文档
用其他语言hazm
贡献
谢谢
- 代码贡献
- 其他的

评估

模块名称
依赖类动物	85.6％
postagger	98.8％
小伙子	93.4％
lemmatizer	89.9％

	公制	价值
飞机柱	精确	0.99250
	记起	0.99249
	F1得分	0.99249
EZ检测到PacyPostagger	精确	0.99301
	记起	0.99297
	F1得分	0.99298
Spacychunker	准确性	96.53％
	F量	95.00％
	记起	95.17％
	精确	94.83％
spacydipendencyparser	托克准确性	99.06
	UAS	92.30
	拉斯	89.15
	发送精度	98.84
	发送召回	99.38
	发送F量	99.11

介绍

HAZM是一个Python库，可在波斯文本上执行自然语言处理任务。它提供了分析，处理和理解波斯文本的各种功能。您可以使用HAZM将文本归一化，令牌化句子和单词，诱人的单词，分配言论的一部分标签，识别依赖关系，创建单词和句子嵌入或阅读流行的波斯语料库。

特征

归一化：将文本转换为标准形式，例如删除变音符，校正间距等。
令牌化：将文本分成句子和单词。
诱饵：将单词简化为基本形式。
POS标签：将语音的一部分分配给每个单词。
依赖性解析：识别单词之间的句法关系。
嵌入：创建单词和句子的向量表示。
波斯语料库阅读：易于阅读具有现成的脚本和最小代码的流行波斯语料库。

安装

要安装最新版本的HAZM，请在终端中运行以下命令：

 pip install hazm

另外，您可以安装GitHub的最新更新（此版本可能不稳定且错误）：

 pip install git+https://github.com/roshan-research/hazm.git

预验证的模型

最后，如果您想使用我们验证的型号，则可以从下面的链接下载它：

模块名称	尺寸
下载Wordembedding	〜5 GB
下载Sentembedding	〜1 GB
下载Postagger	〜18 MB
下载依赖类动物	〜15 MB
下载Chunker	〜4 MB
下载spacy_pos_tagger_parsbertpostagger	〜630 MB
下载spacy_pos_tagger_parsbertpostagger_trained_on_95％	〜630 MB
下载spacy_chunker_uncased_bert	〜650 MB
下载spacy_chunker_parsbert	〜630 MB
下载spacy_dependency_parser	〜630 MB

用法

 > >> from hazm import *

> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند' )
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]

> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتاب‌ها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'می‌روم' )
'رفت#رو'

> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب می‌خوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'می‌خوانیم' , 'V' )]

> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]

> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )] 

> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
  ( NP نامه / NOUN , EZ ایشان / PRON )
  ( POSTP را / ADP )
  ( VP دریافت / NOUN داشتم / VERB )
  . / PUNCT )

> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'

> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' ))
< DependencyGraph with 8 nodes >

> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' )])

>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثه‌ای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپ‌بنزین‌ها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
    [
      'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
      'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
      'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
      ]
)

文档

请访问https://roshan-ai.ir/hazm/docs查看完整的文档。

用其他语言hazm

免责声明：这些端口不是由Roshan开发或维护的。它们可能没有与原始Hazm相同的功能或质量。

Jhazm ：Hazm的Java港口
NHAZM ：AC＃HAZM港口

贡献

我们欢迎并感谢对此存储库的任何贡献，例如错误报告，功能请求，代码改进，文档更新等。请在贡献时遵循贡献指南。您可以打开一个问题，分叉存储库，编写代码，创建拉动请求并等待审核和反馈。感谢您对此仓库的关注和支持！

谢谢

代码贡献

其他的

多亏了Vaverastyar Project提供波斯语列表。

展开

附加信息

版本 Hazm 0.10.0
类型其他源码
更新时间 2025-04-15
大小 3.7MB
来自于 Github

hazm

HAZM-波斯NLP工具包

评估

介绍

特征

安装

预验证的模型

用法

文档

用其他语言hazm

贡献

谢谢

代码贡献

其他的

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express