Unduh Romanian Transformers - Romanian Transformers Sumber Code Unduh

Romanian Transformers

Kode Sumber AI

1.0.0

Unduh

Transformer Rumania

Repo ini dimaksudkan sebagai ruang untuk memusatkan transformator Rumania dan untuk memberikan evaluasi yang seragam. Kontribusi dipersilakan.

Kami menggunakan Transformers Lib HuggingFace, alat yang luar biasa untuk NLP. Apa yang Anda tanyakan? Berikut artikel yang jelas dan kental tentang apa Bert dan apa yang bisa dilakukannya. Lihat juga ringkasan model transformator yang berbeda ini.

Berikut ini adalah daftar model transformator Rumania, baik model bahasa bertopeng dan bersyarat.

Jangan ragu untuk membuka masalah dan menambahkan model/evaluasi Anda di sini!

Model Bahasa bertopeng (MLM)

Model	Jenis	Ukuran	Artikel/Kutipan/Sumber	Pra-terlatih / disesuaikan	Tanggal rilis
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	Bert	124m	PDF / CITE	Pra-terlatih	Apr, 2020
Dumitrescustefan/Bert-Base-Romanian-tidak-V1	Bert	124m	PDF / CITE	Pra-terlatih	Apr, 2020
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	-	Pra-terlatih	Apr, 2021
Readerbench/Robert-Small	Bert	19m	Pdf	Pra-terlatih	Mei, 2021
Readerbench/Robert-Base	Bert	114m	Pdf	Pra-terlatih	Mei, 2021
Readerbench/Robert-Large	Bert	341m	Pdf	Pra-terlatih	Mei, 2021
DUMITRESCUSTEFAN/BERT-BASE-ROMANIAN-BERNA	Bert	124m	Ruang hf	Pengakuan entitas yang disebutkan di RONECV2	Jan, 2022
Snisioi/Bert-Legal-Romanian-Cased-V1	Bert	124m	-	Dokumen Hukum tentang Marcellv2	Jan, 2022
Readerbench/Jurbert-Base	Bert	111m	Pdf	Dokumen hukum	Oktober, 2021
Readerbench/Jurbert-Large	Bert	337m	Pdf	Dokumen hukum	Oktober, 2021

Model Bahasa Generatif (CLM)

Model	Jenis	Ukuran	Artikel/Kutipan/Sumber	Pra-terlatih / disesuaikan	Tanggal rilis
Dumitrescustefan/GPT-NEO-ROMANIAN-780M	GPT-NEO	780m	Belum / ruang hf	Pra-terlatih	Sep, 2022
readerbench/rogpt2-base	Gpt2	124m	Pdf	Pra-terlatih	Jul, 2021
readerbench/rogpt2-medium	Gpt2	354m	Pdf	Pra-terlatih	Jul, 2021
Readerbench/Rogpt2-Large	Gpt2	774m	Pdf	Pra-terlatih	Jul, 2021

Baru: Lihat ruang HF ini untuk bermain dengan model generatif Rumania: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

Evaluasi model

Model dievaluasi menggunakan skrip Colab publik yang tersedia di sini. Semua hasil yang dilaporkan adalah skor rata -rata 5 run, menggunakan parameter yang sama. Untuk model yang lebih besar, jika memungkinkan, ukuran batch yang lebih besar disimulasikan oleh akumulasi gradien, sehingga semua model harus memiliki ukuran batch efektif yang sama. Hanya model standar (tidak finetuned untuk tugas tertentu) dan itu bisa sesuai dengan 16GB RAM dievaluasi.

Tes mencakup bidang berikut, dan, untuk singkatnya, kami memilih satu metrik dari setiap bidang:

Named Entity Recognition : On RONECV2 kami mengukur ukuran kecocokan ketat uji. Model harus dengan benar mendeteksi apakah suatu kata adalah entitas dan menandai dengan kelas yang benar.
Bagian dari Tagging Pidato : Pada Ro-Pos-Tagger kami mengukur skor UPOS UPOS F1. Tes ini harus mengungkapkan seberapa baik model memahami struktur bahasa.
Kesamaan tekstual semantik : Pada RO-STS kami mengukur koefisien korelasi uji Pearson. Mengingat dua kalimat, model harus memprediksi apakah mereka disyaratkan, bertentangan atau pada subjek yang berbeda (netral). Tes ini harus menyoroti seberapa baik model dapat menanamkan arti kalimat.
Deteksi Emosi : Pada deteksi emosi Redv2 dalam tweet Rumania, kami mengukur kehilangan tes yang hilang dalam pengaturan klasifikasi ( lebih rendah lebih baik ). Tes ini harus menunjukkan seberapa baik model dapat "memahami" emosi dari teks pendek.
Perplexity : Pada split uji Wiki-ro, kami mengukur kebingungan CLM-Model-only dengan langkah 512 dan ukuran batch 4.

Evaluasi Model MLM

Model	Jenis	Ukuran	Ner/em_strict	Rosts/Pearson	RO-POS-TGGER/UPOS F1	Redv2/hamming_loss
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	Bert	124m	0.8815	0.7966	0.982	0.1039
Dumitrescustefan/Bert-Base-Romanian-tidak-V1	Bert	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
Readerbench/Robert-Small	Bert	19m	0.8512	0.7827	0.9794	0.1085
Readerbench/Robert-Base	Bert	114m	0.8768	0.8102	0.9819	0.1041

Evaluasi Model CLM

Model	Jenis	Ukuran	Ner/em_strict	Rosts/Pearson	RO-POS-TGGER/UPOS F1	Redv2/hamming_loss	Kebingungan
readerbench/rogpt2-base	Gpt2	124m	0.6865	0.7963	0.9009	0.1068	52.34
readerbench/rogpt2-medium	Gpt2	354m	0.7123	0.7979	0.9098	0.114	31.26

Apa yang dapat Anda lakukan dengan model -model ini

Menggunakan lib transformer HuggingFace, instantiate model dan ganti nama model seperlunya. Kemudian gunakan kepala model yang sesuai tergantung pada tugas Anda. Berikut beberapa contoh:

Dapatkan Token Embeddings

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Untuk model Dumitrescustefan/* , ingatlah untuk memperbaiki diakritik ș/ț sebelum memberinya makan ke model (dilatih hanya dengan diakritik yang benar, koma, dan akan melihat cedilla ş an ţ sebagai ikat dan dengan demikian mengurangi kinerja keseluruhan):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

Tulis teks dengan model generatif

Berikan prompt untuk model generatif dan biarkan menulis:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS Anda dapat menguji semua model generatif di sini: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

Catatan terakhir

Sementara repo ini awalnya dimulai sebagai mendalam dari model transformator tunggal pada tahun 2020, dengan harapan ekspres bahwa lebih banyak model akan ditambahkan dengan cepat, ternyata melatih model yang baik tidak semudah itu, dan dibutuhkan banyak upaya untuk mengkuratori data dan kemudian memiliki akses ke daya komputasi yang cukup. Jadi, saya merasa tidak lagi berguna untuk hanya mendaftar beberapa model, dan itu akan membuat lebih banyak dampak untuk mendaftar semua model yang dapat saya temukan yang hanya Rumania, dan memiliki tingkat kinerja/dokumentasi yang minimal. Ini dia :)
Repo ini berisi beberapa kode untuk mengunduh dan membersihkan korpus Rumania. Saya telah menghapus bagian ini karena Oscar sekarang ditawarkan pada HuggingFace (versi baru), dan API Opus tidak lagi berfungsi sebagaimana mestinya (beberapa pemfilteran manual sekarang diperlukan, belum lagi sumber daya baru ditambahkan terus -menerus) - sehingga mempertahankan kode ini tidak benar -benar layak.
Harap berkontribusi pada repo ini dengan model Rumania baru yang Anda temukan, atau dengan kutipan atau pembaruan untuk model yang ada.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 6.16KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers: Perang untuk Cybertron

2022-08-19
Transformer: De

2022-08-18
Transformers Bangkitnya Percikan Gelap

2022-08-17

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua