parsner 다운로드 - parsner 소스 코드 다운로드

parsner

AI 소스 코드

1.0.0

다운로드

파스 너?

소개

이 repo에는 명명 된 엔티티 인식 (NER) 작업을 위해 미세 조정 된 기존의 사전 제기 된 모든 모델이 포함되어 있습니다. 이 모델은 Arman, Peyma 및 Wikiann에서 수집 한 혼합 NER 데이터 세트에 대해 교육을 받았으며 10 가지 유형의 엔티티를 다루었습니다.

날짜 (DAT)
이벤트 (이브)
시설 (FAC)
위치 (loc)
돈 (월)
조직 (ORG)
백분율 (PCT)
사람 (per)
제품 (프로)
시간 (Tim)

데이터 세트 정보

	기록	B-dat	B-eve	B-FAC	블록	B-Mon	B-org	B-PCT	b-per	B-Pro	B-TIM	I-dat	i-ee	i-fac	i-loc	I 분	i-org	i-pct	I-per	i-pro	i-tim
기차	29133	1423	1487	1400	13919	417	15926	355	12347	1855	150	1947	5018	2421	4118	1059	19579	573	7699	1914	332
유효한	5142	267	253	250	2362	100	2651	64	2173	317	19	373	799	387	717	270	3260	101	1382	303	35
시험	6049	407	256	248	2886	98	3216	94	2646	318	43	568	888	408	858	263	3967	141	1707	296	78

다운로드 여기에서 데이터 세트를 다운로드 할 수 있습니다

평가

다음 테이블은 전반적으로 사전에 걸린 모델로 얻은 점수를 전체 및 각 클래스별로 요약합니다.

모델	정확성	정도	상기하다	F1
버트	0.995086	0.953454	0.961113	0.957268
로베르타	0.994849	0.949816	0.960235	0.954997
Distilbert	0.994534	0.946326	0.95504	0.950663
앨버트	0.993405	0.938907	0.943966	0.941429

버트

	숫자	정도	상기하다	F1
DAT	407	0.860636	0.864865	0.862745
이브	256	0.969582	0.996094	0.982659
얼굴	248	0.976190	0.991935	0.984000
로 로치	2884	0.970232	0.971914	0.971072
몬	98	0.905263	0.877551	0.891192
org	3216	0.939125	0.954602	0.946800
PCT	94	1.000000	0.968085	0.983784
당	2645	0.965244	0.965974	0.965608
찬성	318	0.981481	1.000000	0.990654
팀	43	0.692308	0.837209	0.757895

로베르타

	숫자	정도	상기하다	F1
DAT	407	0.844869	0.869779	0.857143
이브	256	0.948148	1.000000	0.973384
얼굴	248	0.957529	1.000000	0.978304
로 로치	2884	0.965422	0.968100	0.966759
몬	98	0.937500	0.918367	0.927835
org	3216	0.943662	0.958333	0.950941
PCT	94	1.000000	0.968085	0.983784
당	2646	0.957030	0.959562	0.958294
찬성	318	0.963636	1.000000	0.981481
팀	43	0.739130	0.790698	0.764045

Distilbert

	숫자	정도	상기하다	F1
DAT	407	0.812048	0.828010	0.819951
이브	256	0.955056	0.996094	0.975143
얼굴	248	0.972549	1.000000	0.986083
로 로치	2884	0.968403	0.967060	0.967731
몬	98	0.925532	0.887755	0.906250
org	3216	0.932095	0.951803	0.941846
PCT	94	0.936842	0.946809	0.941799
당	2645	0.959818	0.957278	0.958546
찬성	318	0.963526	0.996855	0.979907
팀	43	0.760870	0.813953	0.786517

앨버트

	숫자	정도	상기하다	F1
DAT	407	0.820639	0.820639	0.820639
이브	256	0.936803	0.984375	0.960000
얼굴	248	0.925373	1.000000	0.961240
로 로치	2884	0.960818	0.960818	0.960818
몬	98	0.913978	0.867347	0.890052
org	3216	0.920892	0.937500	0.929122
PCT	94	0.946809	0.946809	0.946809
당	2644	0.960000	0.944024	0.951945
찬성	318	0.942943	0.987421	0.964670
팀	43	0.780488	0.744186	0.761905

사용 방법

이 모델을 NER 용 Transformers 파이프 라인과 함께 사용합니다.

요구 사항 설치

pip install sentencepiece
pip install transformers

파이프 라인을 사용하여 예측하는 방법

 from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification  # for pytorch
from transformers import TFAutoModelForTokenClassification  # for tensorflow
from transformers import pipeline

# model_name_or_path = "HooshvareLab/bert-fa-zwnj-base-ner"  # Roberta
# model_name_or_path = "HooshvareLab/roberta-fa-zwnj-base-ner"  # Roberta
model_name_or_path = "HooshvareLab/distilbert-fa-zwnj-base-ner"  # Distilbert
# model_name_or_path = "HooshvareLab/albert-fa-zwnj-base-v2-ner"  # Albert

tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )

model = AutoModelForTokenClassification . from_pretrained ( model_name_or_path )  # Pytorch
# model = TFAutoModelForTokenClassification.from_pretrained(model_name_or_path)  # Tensorflow

nlp = pipeline ( "ner" , model = model , tokenizer = tokenizer )
example = "در سال ۲۰۱۳ درگذشت و آندرتیکر و کین برای او مراسم یادبود گرفتند."

ner_results = nlp ( example )
print ( ner_results )

모델

포옹 얼굴 모델 허브

버트
로베르타
Distilbert
앨버트

훈련

모든 모델은 다음 매개 변수와 함께 단일 NVIDIA P100 GPU에 대해 교육을 받았습니다.

논쟁

 " task_name " : " ner "
" model_name_or_path " : model_name_or_path
" train_file " : " /content/ner/train.csv "
" validation_file " : " /content/ner/valid.csv "
" test_file " : " /content/ner/test.csv "
" output_dir " : output_dir
" cache_dir " : " /content/cache "
" per_device_train_batch_size " : 16
" per_device_eval_batch_size " : 16
" use_fast_tokenizer " : True
" num_train_epochs " : 5.0
" do_train " : True
" do_eval " : True
" do_predict " : True
" learning_rate " : 2e-5
" evaluation_strategy " : " steps "
" logging_steps " : 1000
" save_steps " : 1000
" save_total_limit " : 2
" overwrite_output_dir " : True
" fp16 " : True
" preprocessing_num_workers " : 4

인용문

이 저장소를 다음과 같이 인용하십시오.

 @misc{ParsNER,
  author = {Hooshvare Team},
  title = {Pre-Trained NER models for Persian},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/hooshvare/parsner}},
}