이 repo는 루마니아 변압기를 중앙 집중화하고 균일 한 평가를 제공하기위한 공간입니다. 기부금을 환영합니다.
우리는 NLP를위한 멋진 도구 인 Huggingface의 Transformers Lib를 사용하고 있습니다. 당신이 묻는 버트는 무엇입니까? 다음은 Bert가 무엇인지, 무엇을 할 수 있는지에 대한 명확하고 응축 된 기사입니다. 또한 다른 변압기 모델에 대한이 요약을 확인하십시오.
다음은 마스크 및 조건부 언어 모델 인 루마니아 변압기 모델 목록입니다.
문제를 열고 여기에 모델/평가를 추가하십시오!
| 모델 | 유형 | 크기 | 기사/인용/출처 | 미리 훈련 / 미세 조정 | 출시일 |
|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanian-Cased-V1 | 버트 | 124m | PDF / 인용 | 미리 훈련 | 2020 년 4 월 |
| Dumitrescustefan/Bert-Base-Romanian-uncanced-v1 | 버트 | 124m | PDF / 인용 | 미리 훈련 | 2020 년 4 월 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | - | 미리 훈련 | 2021 년 4 월 |
| ReaderBench/Robert-Small | 버트 | 19m | 미리 훈련 | 2021 년 5 월 | |
| ReaderBench/Robert-Base | 버트 | 114m | 미리 훈련 | 2021 년 5 월 | |
| ReaderBench/Robert-Large | 버트 | 341m | 미리 훈련 | 2021 년 5 월 | |
| Dumitrescustefan/Bert-Base-Romanian-rer | 버트 | 124m | HF 공간 | RONECV2에서 지명 된 엔티티 인식 | 2022 년 1 월 |
| Snisioi/Bert-legal-Romanian-Cased-V1 | 버트 | 124m | - | Marcellv2에 대한 법률 문서 | 2022 년 1 월 |
| ReaderBench/Jurbert-Base | 버트 | 111m | 법률 문서 | 2021 년 10 월 | |
| ReaderBench/Jurbert-Large | 버트 | 337m | 법률 문서 | 2021 년 10 월 |
| 모델 | 유형 | 크기 | 기사/인용/출처 | 미리 훈련 / 미세 조정 | 출시일 |
|---|---|---|---|---|---|
| Dumitrescustefan/gpt-neo-Romanian-780m | gpt-neo | 780m | 아직 / hf 공간이 아닙니다 | 미리 훈련 | 2022 년 9 월 |
| readerbench/rogpt2-base | GPT2 | 124m | 미리 훈련 | 2021 년 7 월 | |
| ReaderBench/ROGPT2-MEDIUM | GPT2 | 354m | 미리 훈련 | 2021 년 7 월 | |
| ReaderBench/rogpt2-large | GPT2 | 774m | 미리 훈련 | 2021 년 7 월 |
신규 :이 HF 공간을 확인하여 루마니아 생성 모델을 사용하여 https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation을 확인하십시오.
모델은 여기에서 사용 가능한 공개 콜랩 스크립트를 사용하여 평가됩니다. 보고 된 모든 결과는 동일한 매개 변수를 사용하여 평균 5 개의 런입니다. 더 큰 모델의 경우, 가능하다면 더 큰 배치 크기가 축적 된 그라디언트에 의해 시뮬레이션되어 모든 모델이 동일한 유효 배치 크기를 가져야합니다. 표준 모델 만 (특정 작업을 위해 미세 조정되지 않음) 16GB RAM에 맞을 수 있습니다.
테스트는 다음 분야를 포괄하며 간결하게 각 필드에서 단일 메트릭을 선택합니다.
| 모델 | 유형 | 크기 | ner/em_strict | 로스트/피어슨 | Ro-pos-tagger/upos f1 | redv2/hamming_loss |
|---|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanian-Cased-V1 | 버트 | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| Dumitrescustefan/Bert-Base-Romanian-uncanced-v1 | 버트 | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| ReaderBench/Robert-Small | 버트 | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| ReaderBench/Robert-Base | 버트 | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| 모델 | 유형 | 크기 | ner/em_strict | 로스트/피어슨 | Ro-pos-tagger/upos f1 | redv2/hamming_loss | 당황 |
|---|---|---|---|---|---|---|---|
| readerbench/rogpt2-base | GPT2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| ReaderBench/ROGPT2-MEDIUM | GPT2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
Huggingface의 Transformers Lib를 사용하여 모델을 인스턴스화하고 필요에 따라 모델 이름을 교체하십시오. 그런 다음 작업에 따라 적절한 모델 헤드를 사용하십시오. 몇 가지 예는 다음과 같습니다.
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
생성 모델에 대한 프롬프트를 제공하고 다음을 작성하십시오.
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))추신 : 여기에서 모든 생성 모델을 테스트 할 수 있습니다 : https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation