hazm
Hazm 0.10.0
| 모듈 이름 | |
|---|---|
| 의존성 | 85.6% |
| 후그 | 98.8% |
| chunker | 93.4% |
| lemmatizer | 89.9% |
| 메트릭 | 값 | |
|---|---|---|
| spacypostagger | 정도 | 0.99250 |
| 상기하다 | 0.99249 | |
| F1- 점수 | 0.99249 | |
| Spacypostagger에서 EZ 검출 | 정도 | 0.99301 |
| 상기하다 | 0.99297 | |
| F1- 점수 | 0.99298 | |
| Spacychunker | 정확성 | 96.53% |
| F- 측정 | 95.00% | |
| 상기하다 | 95.17% | |
| 정도 | 94.83% | |
| SpacyDependencyParser | 토크 정확도 | 99.06 |
| UAS | 92.30 | |
| 라스 | 89.15 | |
| 정밀도를 보냈습니다 | 98.84 | |
| 리콜을 보냈습니다 | 99.38 | |
| F- 측정을 보냈습니다 | 99.11 |
HAZM 은 페르시아어 텍스트에서 자연 언어 처리 작업을 수행하는 파이썬 라이브러리입니다. 페르시아어 텍스트를 분석, 처리 및 이해하기위한 다양한 기능을 제공합니다. Hazm을 사용하여 텍스트를 정규화하고, 문장과 단어를 토큰 화하고, 단어를 찍고, 말을 할당하고, 부품 태그를 할당하고, 종속성 관계를 식별하고, 단어와 문장 임베딩을 만들거나, 인기있는 페르시아 코퍼라를 읽을 수 있습니다.
최신 버전의 HAZM을 설치하려면 터미널에서 다음 명령을 실행하십시오.
pip install hazm
또는 GitHub에서 최신 업데이트를 설치할 수 있습니다 (이 버전은 불안정하고 버그가 될 수 있음).
pip install git+https://github.com/roshan-research/hazm.git
마지막으로, 사기 모델을 사용하려면 아래 링크에서 다운로드 할 수 있습니다.
| 모듈 이름 | 크기 |
|---|---|
| Wordembedding을 다운로드하십시오 | ~ 5GB |
| Sentembedding을 다운로드하십시오 | ~ 1GB |
| Postagger를 다운로드하십시오 | ~ 18MB |
| 종속식을 다운로드하십시오 | ~ 15MB |
| Chunker를 다운로드하십시오 | ~ 4MB |
| spacy_pos_tagger_parsbertpostagger를 다운로드하십시오 | ~ 630MB |
| 다운로드 spacy_pos_tagger_parsbertpostagger_traind_on_95% | ~ 630MB |
| spacy_chunker_uncased_bert를 다운로드하십시오 | ~ 650MB |
| spacy_chunker_parsbert를 다운로드하십시오 | ~ 630MB |
| spacy_dependency_parser를 다운로드하십시오 | ~ 630MB |
> >> from hazm import *
> >> normalizer = Normalizer ()
> >> normalizer . normalize ( 'اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند' )
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
> >> sent_tokenize ( 'ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ما هم برای وصل کردن آمدیم!' , 'ولی برای پردازش، جدا بهتر نیست؟' ]
> >> word_tokenize ( 'ولی برای پردازش، جدا بهتر نیست؟' )
[ 'ولی' , 'برای' , 'پردازش' , '،' , 'جدا' , 'بهتر' , 'نیست' , '؟' ]
> >> stemmer = Stemmer ()
> >> stemmer . stem ( 'کتابها' )
'کتاب'
> >> lemmatizer = Lemmatizer ()
> >> lemmatizer . lemmatize ( 'میروم' )
'رفت#رو'
> >> tagger = POSTagger ( model = 'pos_tagger.model' )
> >> tagger . tag ( word_tokenize ( 'ما بسیار کتاب میخوانیم' ))
[( 'ما' , 'PRO' ), ( 'بسیار' , 'ADV' ), ( 'کتاب' , 'N' ), ( 'میخوانیم' , 'V' )]
> >> spacy_posTagger = SpacyPOSTagger ( model_path = 'MODELPATH' )
> >> spacy_posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN,EZ' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> posTagger = POSTagger ( model = 'pos_tagger.model' , universal_tag = False )
> >> posTagger . tag ( tokens = [ 'من' , 'به' , 'مدرسه' , 'ایران' , 'رفته_بودم' , '.' ])
[( 'من' , 'PRON' ), ( 'به' , 'ADP' ), ( 'مدرسه' , 'NOUN' ), ( 'ایران' , 'NOUN' ), ( 'رفته_بودم' , 'VERB' ), ( '.' , 'PUNCT' )]
> >> chunker = Chunker ( model = 'chunker.model' )
> >> tagged = tagger . tag ( word_tokenize ( 'کتاب خواندن را دوست داریم' ))
> >> tree2brackets ( chunker . parse ( tagged ))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
> >> spacy_chunker = SpacyChunker ( model_path = 'model_path' )
> >> tree = spacy_chunker . parse ( sentence = [( 'نامه' , 'NOUN,EZ' ), ( 'ایشان' , 'PRON' ), ( 'را' , 'ADP' ), ( 'دریافت' , 'NOUN' ), ( 'داشتم' , 'VERB' ), ( '.' , 'PUNCT' )])
> >> print ( tree )
( S
( NP نامه / NOUN , EZ ایشان / PRON )
( POSTP را / ADP )
( VP دریافت / NOUN داشتم / VERB )
. / PUNCT )
> >> word_embedding = WordEmbedding ( model_type = 'fasttext' , model_path = 'word2vec.bin' )
> >> word_embedding . doesnt_match ([ 'سلام' , 'درود' , 'خداحافظ' , 'پنجره' ])
'پنجره'
> >> word_embedding . doesnt_match ([ 'ساعت' , 'پلنگ' , 'شیر' ])
'ساعت'
> >> parser = DependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
> >> parser . parse ( word_tokenize ( 'زنگها برای که به صدا درمیآید؟' ))
< DependencyGraph with 8 nodes >
> >> spacy_parser = SpacyDependencyParser ( tagger = tagger , lemmatizer = lemmatizer )
>> > spacy_parser . parse_sents ([ word_tokenize ( 'زنگها برای که به صدا درمیآید؟' )])
>> > ner = HazmNER ( model_path = 'ner/model-best' )
>> > ner . predict_entity ( 'حمله سایبری به سامانه سوخت در دولت سیزدهم برای بار دوم اتفاق افتاد، حادثهای که در سال 1400 هم به وقوع پیوست اما رفع این مشکل بیش از یک هفته زمان برد، در حالی که آذر امسال پس از این حمله همه پمپبنزینها در کمتر از 24 ساعت فعالیت خود را از سر گرفتند.' )
>> > ner . predict (
[
'ریو در ایران توسط شرکت سایپا از سال 1384 تا سال 1391 تولید شد' ,
'به جز ایالات متحده ، این خودرو در اروپا ، آمریکای جنوبی و آسیا هم فروش بالایی داشته است' ,
'این گاه شمار با قدمتی کمتر از دویست سال ، از جدیدترین گاه شمار های رایج به شمار می رود'
]
)전체 문서를 보려면 https://roshan-ai.ir/hazm/docs를 방문하십시오.
면책 조항 : 이 항구는 Roshan이 개발하거나 유지 관리하지 않습니다. 원래의 위험과 동일한 기능이나 품질을 가질 수 있습니다 ..
버그 보고서, 기능 요청, 코드 개선, 문서 업데이트 등과 같은이 리포지토리에 대한 기여를 환영하고 감사합니다. 문제를 열고, 저장소를 포크하고, 코드를 작성하고, 풀 요청을 만들고, 검토 및 피드백을 기다릴 수 있습니다. 이 저장소에 대한 관심과 지원에 감사드립니다!