hazm 다운로드 - hazm 소스 코드 다운로드

hazm

기타 소스코드

Hazm 0.10.0

다운로드

HAZM -PERSIAN NLP 툴킷

평가
소개
특징
설치
사전 상호 모델
용법
선적 서류 비치
다른 언어로 된 Hazm
기부금
감사해요
- 코드 기고자
- 기타

평가

모듈 이름
의존성	85.6%
후그	98.8%
chunker	93.4%
lemmatizer	89.9%

	메트릭	값
spacypostagger	정도	0.99250
	상기하다	0.99249
	F1- 점수	0.99249
Spacypostagger에서 EZ 검출	정도	0.99301
	상기하다	0.99297
	F1- 점수	0.99298
Spacychunker	정확성	96.53%
	F- 측정	95.00%
	상기하다	95.17%
	정도	94.83%
SpacyDependencyParser	토크 정확도	99.06
	UAS	92.30
	라스	89.15
	정밀도를 보냈습니다	98.84
	리콜을 보냈습니다	99.38
	F- 측정을 보냈습니다	99.11

소개

HAZM 은 페르시아어 텍스트에서 자연 언어 처리 작업을 수행하는 파이썬 라이브러리입니다. 페르시아어 텍스트를 분석, 처리 및 이해하기위한 다양한 기능을 제공합니다. Hazm을 사용하여 텍스트를 정규화하고, 문장과 단어를 토큰 화하고, 단어를 찍고, 말을 할당하고, 부품 태그를 할당하고, 종속성 관계를 식별하고, 단어와 문장 임베딩을 만들거나, 인기있는 페르시아 코퍼라를 읽을 수 있습니다.

특징

정규화 : 텍스트를 디아크리닉 제거, 간격 수정 등과 같은 표준 형태로 변환합니다.
토큰 화 : 텍스트를 문장과 단어로 나눕니다.
Lemmatization : 단어를 기본 형태로 줄입니다.
POS 태깅 : 각 단어에 연설의 일부를 할당합니다.
의존성 구문 분석 : 단어 간의 구문 관계를 식별합니다.
임베딩 : 단어와 문장의 벡터 표현을 만듭니다.
페르시아 코포라 독서 : 기성품 스크립트와 최소한의 코드로 인기있는 페르시아 코퍼라를 쉽게 읽을 수 있습니다.

설치

최신 버전의 HAZM을 설치하려면 터미널에서 다음 명령을 실행하십시오.

 pip install hazm

또는 GitHub에서 최신 업데이트를 설치할 수 있습니다 (이 버전은 불안정하고 버그가 될 수 있음).

 pip install git+https://github.com/roshan-research/hazm.git

사전 상호 모델

마지막으로, 사기 모델을 사용하려면 아래 링크에서 다운로드 할 수 있습니다.

모듈 이름	크기
Wordembedding을 다운로드하십시오	~ 5GB
Sentembedding을 다운로드하십시오	~ 1GB
Postagger를 다운로드하십시오	~ 18MB
종속식을 다운로드하십시오	~ 15MB
Chunker를 다운로드하십시오	~ 4MB
spacy_pos_tagger_parsbertpostagger를 다운로드하십시오	~ 630MB
다운로드 spacy_pos_tagger_parsbertpostagger_traind_on_95%	~ 630MB
spacy_chunker_uncased_bert를 다운로드하십시오	~ 650MB
spacy_chunker_parsbert를 다운로드하십시오	~ 630MB
spacy_dependency_parser를 다운로드하십시오	~ 630MB

용법

 > >> from hazm import *

> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند' )
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]

> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتاب‌ها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'می‌روم' )
'رفت#رو'

> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب می‌خوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'می‌خوانیم' , 'V' )]

> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]

> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )] 

> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
  ( NP نامه / NOUN , EZ ایشان / PRON )
  ( POSTP را / ADP )
  ( VP دریافت / NOUN داشتم / VERB )
  . / PUNCT )

> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'

> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' ))
< DependencyGraph with 8 nodes >

> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگ‌ها برای که به صدا درمی‌آید؟' )])

>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثه‌ای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپ‌بنزین‌ها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
    [
      'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
      'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
      'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
      ]
)

선적 서류 비치

전체 문서를 보려면 https://roshan-ai.ir/hazm/docs를 방문하십시오.

다른 언어로 된 Hazm

면책 조항 : 이 항구는 Roshan이 개발하거나 유지 관리하지 않습니다. 원래의 위험과 동일한 기능이나 품질을 가질 수 있습니다 ..

JHAZM : 자바 항구 Hazm
NHAZM : AC# HAZM 포트

기부금

버그 보고서, 기능 요청, 코드 개선, 문서 업데이트 등과 같은이 리포지토리에 대한 기여를 환영하고 감사합니다. 문제를 열고, 저장소를 포크하고, 코드를 작성하고, 풀 요청을 만들고, 검토 및 피드백을 기다릴 수 있습니다. 이 저장소에 대한 관심과 지원에 감사드립니다!

감사해요

코드 기고자

기타

페르시아어 단어 목록을 제공 한 Virastyar 프로젝트에 감사드립니다.

확장하다

추가 정보

버전 Hazm 0.10.0
유형 기타 소스코드
업데이트 시간 2025-04-15
크기 3.7MB
출처 Github

hazm

HAZM -PERSIAN NLP 툴킷

평가

소개

특징

설치

사전 상호 모델

용법

선적 서류 비치

다른 언어로 된 Hazm

기부금

감사해요

코드 기고자

기타

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express