Repo ini dimaksudkan sebagai ruang untuk memusatkan transformator Rumania dan untuk memberikan evaluasi yang seragam. Kontribusi dipersilakan.
Kami menggunakan Transformers Lib HuggingFace, alat yang luar biasa untuk NLP. Apa yang Anda tanyakan? Berikut artikel yang jelas dan kental tentang apa Bert dan apa yang bisa dilakukannya. Lihat juga ringkasan model transformator yang berbeda ini.
Berikut ini adalah daftar model transformator Rumania, baik model bahasa bertopeng dan bersyarat.
Jangan ragu untuk membuka masalah dan menambahkan model/evaluasi Anda di sini!
| Model | Jenis | Ukuran | Artikel/Kutipan/Sumber | Pra-terlatih / disesuaikan | Tanggal rilis |
|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanian-Cased-V1 | Bert | 124m | PDF / CITE | Pra-terlatih | Apr, 2020 |
| Dumitrescustefan/Bert-Base-Romanian-tidak-V1 | Bert | 124m | PDF / CITE | Pra-terlatih | Apr, 2020 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | - | Pra-terlatih | Apr, 2021 |
| Readerbench/Robert-Small | Bert | 19m | Pra-terlatih | Mei, 2021 | |
| Readerbench/Robert-Base | Bert | 114m | Pra-terlatih | Mei, 2021 | |
| Readerbench/Robert-Large | Bert | 341m | Pra-terlatih | Mei, 2021 | |
| DUMITRESCUSTEFAN/BERT-BASE-ROMANIAN-BERNA | Bert | 124m | Ruang hf | Pengakuan entitas yang disebutkan di RONECV2 | Jan, 2022 |
| Snisioi/Bert-Legal-Romanian-Cased-V1 | Bert | 124m | - | Dokumen Hukum tentang Marcellv2 | Jan, 2022 |
| Readerbench/Jurbert-Base | Bert | 111m | Dokumen hukum | Oktober, 2021 | |
| Readerbench/Jurbert-Large | Bert | 337m | Dokumen hukum | Oktober, 2021 |
| Model | Jenis | Ukuran | Artikel/Kutipan/Sumber | Pra-terlatih / disesuaikan | Tanggal rilis |
|---|---|---|---|---|---|
| Dumitrescustefan/GPT-NEO-ROMANIAN-780M | GPT-NEO | 780m | Belum / ruang hf | Pra-terlatih | Sep, 2022 |
| readerbench/rogpt2-base | Gpt2 | 124m | Pra-terlatih | Jul, 2021 | |
| readerbench/rogpt2-medium | Gpt2 | 354m | Pra-terlatih | Jul, 2021 | |
| Readerbench/Rogpt2-Large | Gpt2 | 774m | Pra-terlatih | Jul, 2021 |
Baru: Lihat ruang HF ini untuk bermain dengan model generatif Rumania: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation
Model dievaluasi menggunakan skrip Colab publik yang tersedia di sini. Semua hasil yang dilaporkan adalah skor rata -rata 5 run, menggunakan parameter yang sama. Untuk model yang lebih besar, jika memungkinkan, ukuran batch yang lebih besar disimulasikan oleh akumulasi gradien, sehingga semua model harus memiliki ukuran batch efektif yang sama. Hanya model standar (tidak finetuned untuk tugas tertentu) dan itu bisa sesuai dengan 16GB RAM dievaluasi.
Tes mencakup bidang berikut, dan, untuk singkatnya, kami memilih satu metrik dari setiap bidang:
| Model | Jenis | Ukuran | Ner/em_strict | Rosts/Pearson | RO-POS-TGGER/UPOS F1 | Redv2/hamming_loss |
|---|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanian-Cased-V1 | Bert | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| Dumitrescustefan/Bert-Base-Romanian-tidak-V1 | Bert | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| Readerbench/Robert-Small | Bert | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| Readerbench/Robert-Base | Bert | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| Model | Jenis | Ukuran | Ner/em_strict | Rosts/Pearson | RO-POS-TGGER/UPOS F1 | Redv2/hamming_loss | Kebingungan |
|---|---|---|---|---|---|---|---|
| readerbench/rogpt2-base | Gpt2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| readerbench/rogpt2-medium | Gpt2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
Menggunakan lib transformer HuggingFace, instantiate model dan ganti nama model seperlunya. Kemudian gunakan kepala model yang sesuai tergantung pada tugas Anda. Berikut beberapa contoh:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
Berikan prompt untuk model generatif dan biarkan menulis:
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PS Anda dapat menguji semua model generatif di sini: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation