hazm Download - hazm Source Code Download

hazm

Anderer Quellcode

Hazm 0.10.0

Herunterladen

Hazm - Persisch NLP Toolkit

Auswertung
Einführung
Merkmale
Installation
Vorbereitete Modelle
Verwendung
Dokumentation
Hazm in anderen Sprachen
Beitrag
Danke
- Code -Mitwirkende
- Andere

Auswertung

Modulname
Abhängigkeit	85,6%
Postgericht	98,8%
Chunker	93,4%
Lemmatizer	89,9%

	Metrisch	Wert
SpacypOstagger	Präzision	0,99250
	Abrufen	0,99249
	F1-Score	0,99249
EZ -Erkennung in Spacypostagger	Präzision	0,99301
	Abrufen	0,99297
	F1-Score	0,99298
SPACYCHUCKER	Genauigkeit	96,53%
	F-Messung	95,00%
	Abrufen	95,17%
	Präzision	94,83%
Spacydependencyparser	Tok -Genauigkeit	99.06
	Uas	92.30
	Las	89.15
	Präzision gesendet	98.84
	Gesendete Rückruf	99.38
	Schickte F-Messung	99.11

Einführung

HAZM ist eine Python -Bibliothek, die Aufgaben zur Verarbeitung natürlicher Sprache für den persischen Text auszuführen. Es bietet verschiedene Funktionen für die Analyse, Verarbeitung und Verständnis persischer Text. Sie können HAZM verwenden, um Text zu normalisieren, Sätze und Wörter zu tokenisieren, Wörter zu lemmatisieren, Teil der Speech-Tags zuzuweisen, Abhängigkeitsbeziehungen zu identifizieren, Wort- und Satz-Einbettungen zu erstellen oder die populäre persische Korpora zu lesen.

Merkmale

Normalisierung: Konvertiert Text in eine Standardform, z. B. das Entfernen von Diakritikern, die Korrektur von Abstand usw.
Tokenisierung: Teilen Sie Text in Sätze und Wörter auf.
Lemmatisierung: reduziert Wörter auf ihre Basisformen.
POS -Tagging: Weisen jedem Wort einen Teil der Sprache zu.
Abhängigkeitsanalyse: Identifiziert die syntaktischen Beziehungen zwischen Wörtern.
Einbettung: Erzeugt Vektordarstellungen von Wörtern und Sätzen.
Persian Corpora Reading: Lesen Sie leicht die beliebte persische Korpora mit vorbereiteten Skripten und minimalem Code.

Installation

Führen Sie den folgenden Befehl in Ihrem Terminal aus, um die neueste Version von HAZM zu installieren:

 pip install hazm

Alternativ können Sie das neueste Update von GitHub installieren (diese Version kann instabil und fehlerhaft sein):

 pip install git+https://github.com/roshan-research/hazm.git

Vorbereitete Modelle

Wenn Sie unsere vorbereiteten Modelle verwenden möchten, können Sie sie schließlich aus den folgenden Links herunterladen:

Modulname	Größe
Laden Sie WordMbedding herunter	~ 5 GB
Laden Sie Sentembedding herunter	~ 1 GB
Postagger herunterladen	~ 18 MB
Download DepellentcyParser	~ 15 MB
Download Chunker	~ 4 MB
Download SPACY_POS_TAGGE_PARSBERTPOSTAGG	~ 630 MB
Download SPACY_POS_TAGGE_PARSBERTPOSTAGGE_TRAUT_ON_95%	~ 630 MB
Laden Sie SPACY_CHUNCER_UCNASE_BERT herunter	~ 650 MB
Laden Sie SPACY_CHUNCER_PARSBERT herunter	~ 630 MB
Laden Sie SPACY_DEPENDENCY_PARSER herunter	~ 630 MB

Verwendung

 > >> from hazm import *

> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند' )
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]

> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتاب‌ها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'می‌روم' )
'رفت#رو'

> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب می‌خوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'می‌خوانیم' , 'V' )]

> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]

> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )] 

> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
  ( NP نامه / NOUN , EZ ایشان / PRON )
  ( POSTP را / ADP )
  ( VP دریافت / NOUN داشتم / VERB )
  . / PUNCT )

> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'

> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' ))
< DependencyGraph with 8 nodes >

> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' )])

>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثه‌ای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپ‌بنزین‌ها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
    [
      'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
      'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
      'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
      ]
)

Dokumentation

Besuchen Sie https://roshan-ai.ir/hazm/docs, um die vollständige Dokumentation anzuzeigen.

Hazm in anderen Sprachen

Haftungsausschluss: Diese Häfen werden von Roshan nicht entwickelt oder gepflegt. Sie haben möglicherweise nicht die gleiche Funktionalität oder Qualität wie das ursprüngliche Hazm.

Jhazm : Ein Java -Hafen von Hazm
NHAZM : AC# HAZM HAZM

Beitrag

Wir begrüßen und schätzen alle Beiträge zu diesem Repo, z. B. Fehlerberichte, Feature -Anfragen, Codeverbesserungen, Dokumentationsaktualisierungen usw. Bitte befolgen Sie die Beitragsrichtlinie, wenn Sie einen Beitrag leisten. Sie können ein Problem eröffnen, das Repo aufnehmen, Ihren Code schreiben, eine Pull -Anfrage erstellen und auf eine Überprüfung und ein Feedback warten. Vielen Dank für Ihr Interesse und Ihre Unterstützung in diesem Repo!

Danke

Code -Mitwirkende

Andere

Vielen Dank an Virastyar -Projekt für die Bereitstellung der persischen Wortliste.

Expandieren

Zusätzliche Informationen

Version Hazm 0.10.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-15
Größe 3.7MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

hazm

Hazm - Persisch NLP Toolkit

Auswertung

Einführung

Merkmale

Installation

Vorbereitete Modelle

Verwendung

Dokumentation

Hazm in anderen Sprachen

Beitrag

Danke

Code -Mitwirkende

Andere

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express