Romanian Transformers 다운로드 - Romanian Transformers 소스 코드 다운로드

Romanian Transformers

AI 소스 코드

1.0.0

다운로드

루마니아 변압기

이 repo는 루마니아 변압기를 중앙 집중화하고 균일 한 평가를 제공하기위한 공간입니다. 기부금을 환영합니다.

우리는 NLP를위한 멋진 도구 인 Huggingface의 Transformers Lib를 사용하고 있습니다. 당신이 묻는 버트는 무엇입니까? 다음은 Bert가 무엇인지, 무엇을 할 수 있는지에 대한 명확하고 응축 된 기사입니다. 또한 다른 변압기 모델에 대한이 요약을 확인하십시오.

다음은 마스크 및 조건부 언어 모델 인 루마니아 변압기 모델 목록입니다.

문제를 열고 여기에 모델/평가를 추가하십시오!

마스킹 언어 모델 (MLMS)

모델	유형	크기	기사/인용/출처	미리 훈련 / 미세 조정	출시일
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	버트	124m	PDF / 인용	미리 훈련	2020 년 4 월
Dumitrescustefan/Bert-Base-Romanian-uncanced-v1	버트	124m	PDF / 인용	미리 훈련	2020 년 4 월
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	-	미리 훈련	2021 년 4 월
ReaderBench/Robert-Small	버트	19m	PDF	미리 훈련	2021 년 5 월
ReaderBench/Robert-Base	버트	114m	PDF	미리 훈련	2021 년 5 월
ReaderBench/Robert-Large	버트	341m	PDF	미리 훈련	2021 년 5 월
Dumitrescustefan/Bert-Base-Romanian-rer	버트	124m	HF 공간	RONECV2에서 지명 된 엔티티 인식	2022 년 1 월
Snisioi/Bert-legal-Romanian-Cased-V1	버트	124m	-	Marcellv2에 대한 법률 문서	2022 년 1 월
ReaderBench/Jurbert-Base	버트	111m	PDF	법률 문서	2021 년 10 월
ReaderBench/Jurbert-Large	버트	337m	PDF	법률 문서	2021 년 10 월

생성 언어 모델 (CLMS)

모델	유형	크기	기사/인용/출처	미리 훈련 / 미세 조정	출시일
Dumitrescustefan/gpt-neo-Romanian-780m	gpt-neo	780m	아직 / hf 공간이 아닙니다	미리 훈련	2022 년 9 월
readerbench/rogpt2-base	GPT2	124m	PDF	미리 훈련	2021 년 7 월
ReaderBench/ROGPT2-MEDIUM	GPT2	354m	PDF	미리 훈련	2021 년 7 월
ReaderBench/rogpt2-large	GPT2	774m	PDF	미리 훈련	2021 년 7 월

신규 :이 HF 공간을 확인하여 루마니아 생성 모델을 사용하여 https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation을 확인하십시오.

모델 평가

모델은 여기에서 사용 가능한 공개 콜랩 스크립트를 사용하여 평가됩니다. 보고 된 모든 결과는 동일한 매개 변수를 사용하여 평균 5 개의 런입니다. 더 큰 모델의 경우, 가능하다면 더 큰 배치 크기가 축적 된 그라디언트에 의해 시뮬레이션되어 모든 모델이 동일한 유효 배치 크기를 가져야합니다. 표준 모델 만 (특정 작업을 위해 미세 조정되지 않음) 16GB RAM에 맞을 수 있습니다.

테스트는 다음 분야를 포괄하며 간결하게 각 필드에서 단일 메트릭을 선택합니다.

명명 된 엔티티 인식 : RONECV2에서 테스트 엄격한 매치 측정을 측정합니다. 모델은 단어가 엔티티인지 여부를 올바르게 감지하고 올바른 클래스로 태그를 지정해야합니다.
음성 태그의 일부 : Ro-Pos-Tagger에서 우리는 테스트 UPOS F1 점수를 측정합니다. 이 테스트는 모델이 언어의 구조를 얼마나 잘 이해하는지를 보여 주어야합니다.
시맨틱 텍스트 유사성 : RO-STS에서는 테스트 Pearson 상관 계수를 측정합니다. 두 문장이 주어지면 모델은 모델이 수반되는지, 모순되는지 또는 다른 주제에 있는지 예측해야합니다 (중립). 이 테스트는 모델이 문장의 의미를 얼마나 잘 포함시킬 수 있는지 강조해야합니다.
감정 탐지 : 루마니아 트윗의 REDV2 감정 탐지에서 우리는 분류 환경에서 테스트 해밍 손실을 측정합니다 ( 낮은 것은 더 좋습니다 ). 이 테스트는 모델이 짧은 텍스트의 감정을 얼마나 잘 이해할 수 있는지를 보여 주어야합니다.
Perplexity : Wiki-Ro의 테스트 분할에서 우리는 512의 보폭과 배치 크기가 4 인 CLM 전용 모델의 당황을 측정합니다.

MLM 모델 평가

모델	유형	크기	ner/em_strict	로스트/피어슨	Ro-pos-tagger/upos f1	redv2/hamming_loss
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	버트	124m	0.8815	0.7966	0.982	0.1039
Dumitrescustefan/Bert-Base-Romanian-uncanced-v1	버트	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
ReaderBench/Robert-Small	버트	19m	0.8512	0.7827	0.9794	0.1085
ReaderBench/Robert-Base	버트	114m	0.8768	0.8102	0.9819	0.1041

CLM 모델 평가

모델	유형	크기	ner/em_strict	로스트/피어슨	Ro-pos-tagger/upos f1	redv2/hamming_loss	당황
readerbench/rogpt2-base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
ReaderBench/ROGPT2-MEDIUM	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

이 모델로 할 수있는 일

Huggingface의 Transformers Lib를 사용하여 모델을 인스턴스화하고 필요에 따라 모델 이름을 교체하십시오. 그런 다음 작업에 따라 적절한 모델 헤드를 사용하십시오. 몇 가지 예는 다음과 같습니다.

토큰 임베딩을 얻으십시오

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Dumitrescustefan/* 모델의 경우 모델에 공급하기 전에 ș/ț diacritics를 수정해야합니다 (올바른 쉼표 스타일의 디아크리닉으로 만 훈련되어 Cedilla ş an을 UNK로 볼 수 있으므로 전반적인 성능이 감소합니다).

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

생성 모델로 텍스트를 작성하십시오

생성 모델에 대한 프롬프트를 제공하고 다음을 작성하십시오.

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

추신 : 여기에서 모든 생성 모델을 테스트 할 수 있습니다 : https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

최종 메모

이 repo는 처음에는 2020 년에 단일 변압기 모델의 심도로 시작되었지만 더 많은 모델이 빠르게 추가 될 것이라는 명시적인 희망이 있지만 좋은 모델을 훈련하는 것은 쉽지 않으며 데이터를 큐 레이트하고 충분한 컴퓨팅 전력에 액세스하는 데 많은 노력이 필요하다는 것이 밝혀졌습니다. 따라서 두 가지 모델 만 나열하는 것이 더 이상 유용하지 않다고 생각하며, 루마니아어 전용으로 찾을 수있는 모든 모델을 나열하고 성능/문서 수준을 최소화하는 데 더 많은 영향을 미칩니다. 여기 당신은 간다 :)
이 repo에는 루마니아 코퍼스를 다운로드하고 청소하는 몇 가지 코드가 포함되어 있습니다. Oscar가 Huggingface (새 버전)에 제공 되면서이 부분을 제거했으며 Opus의 API는 더 이상 작동하지 않아야합니다 (일부 수동 필터링은 이제 새로운 리소스가 지속적으로 추가되고 있음) -이 코드를 유지하는 것은 실제로 가능하지 않습니다.
당신이 찾은 새로운 루마니아 모델 또는 기존 모델에 대한 인용 또는 업데이트 로이 리포지션에 기여하십시오.

확장하다

추가 정보