| Modulname | |
|---|---|
| Abhängigkeit | 85,6% |
| Postgericht | 98,8% |
| Chunker | 93,4% |
| Lemmatizer | 89,9% |
| Metrisch | Wert | |
|---|---|---|
| SpacypOstagger | Präzision | 0,99250 |
| Abrufen | 0,99249 | |
| F1-Score | 0,99249 | |
| EZ -Erkennung in Spacypostagger | Präzision | 0,99301 |
| Abrufen | 0,99297 | |
| F1-Score | 0,99298 | |
| SPACYCHUCKER | Genauigkeit | 96,53% |
| F-Messung | 95,00% | |
| Abrufen | 95,17% | |
| Präzision | 94,83% | |
| Spacydependencyparser | Tok -Genauigkeit | 99.06 |
| Uas | 92.30 | |
| Las | 89.15 | |
| Präzision gesendet | 98.84 | |
| Gesendete Rückruf | 99.38 | |
| Schickte F-Messung | 99.11 |
HAZM ist eine Python -Bibliothek, die Aufgaben zur Verarbeitung natürlicher Sprache für den persischen Text auszuführen. Es bietet verschiedene Funktionen für die Analyse, Verarbeitung und Verständnis persischer Text. Sie können HAZM verwenden, um Text zu normalisieren, Sätze und Wörter zu tokenisieren, Wörter zu lemmatisieren, Teil der Speech-Tags zuzuweisen, Abhängigkeitsbeziehungen zu identifizieren, Wort- und Satz-Einbettungen zu erstellen oder die populäre persische Korpora zu lesen.
Führen Sie den folgenden Befehl in Ihrem Terminal aus, um die neueste Version von HAZM zu installieren:
pip install hazm
Alternativ können Sie das neueste Update von GitHub installieren (diese Version kann instabil und fehlerhaft sein):
pip install git+https://github.com/roshan-research/hazm.git
Wenn Sie unsere vorbereiteten Modelle verwenden möchten, können Sie sie schließlich aus den folgenden Links herunterladen:
| Modulname | Größe |
|---|---|
| Laden Sie WordMbedding herunter | ~ 5 GB |
| Laden Sie Sentembedding herunter | ~ 1 GB |
| Postagger herunterladen | ~ 18 MB |
| Download DepellentcyParser | ~ 15 MB |
| Download Chunker | ~ 4 MB |
| Download SPACY_POS_TAGGE_PARSBERTPOSTAGG | ~ 630 MB |
| Download SPACY_POS_TAGGE_PARSBERTPOSTAGGE_TRAUT_ON_95% | ~ 630 MB |
| Laden Sie SPACY_CHUNCER_UCNASE_BERT herunter | ~ 650 MB |
| Laden Sie SPACY_CHUNCER_PARSBERT herunter | ~ 630 MB |
| Laden Sie SPACY_DEPENDENCY_PARSER herunter | ~ 630 MB |
> >> from hazm import *
> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند' )
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]
> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتابها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'میروم' )
'رفت#رو'
> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب میخوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'میخوانیم' , 'V' )]
> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
( NP نامه / NOUN , EZ ایشان / PRON )
( POSTP را / ADP )
( VP دریافت / NOUN داشتم / VERB )
. / PUNCT )
> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'
> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگها برای که به صدا درمیآید؟' ))
< DependencyGraph with 8 nodes >
> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگها برای که به صدا درمیآید؟' )])
>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثهای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپبنزینها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
[
'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
]
)Besuchen Sie https://roshan-ai.ir/hazm/docs, um die vollständige Dokumentation anzuzeigen.
Haftungsausschluss: Diese Häfen werden von Roshan nicht entwickelt oder gepflegt. Sie haben möglicherweise nicht die gleiche Funktionalität oder Qualität wie das ursprüngliche Hazm.
Wir begrüßen und schätzen alle Beiträge zu diesem Repo, z. B. Fehlerberichte, Feature -Anfragen, Codeverbesserungen, Dokumentationsaktualisierungen usw. Bitte befolgen Sie die Beitragsrichtlinie, wenn Sie einen Beitrag leisten. Sie können ein Problem eröffnen, das Repo aufnehmen, Ihren Code schreiben, eine Pull -Anfrage erstellen und auf eine Überprüfung und ein Feedback warten. Vielen Dank für Ihr Interesse und Ihre Unterstützung in diesem Repo!