Perhatikan rilis model ini belum sepenuhnya terlatih, versi model yang sepenuhnya terlatih akan dirilis akhir bulan ini
Model bahasa berbasis Roberta Belanda yang baru, pretrained pada oscar corpus Belanda yang tidak diselenggarakan menggunakan tujuan pemodelan bahasa bertopeng (MLM). Model ini sensitif dan termasuk tanda baca. The Huggingface? Perpustakaan Transformer digunakan untuk proses pretraining
Anda dapat menggunakan model ini secara langsung dengan pipa untuk pemodelan bahasa bertopeng:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]Berikut adalah cara menggunakan model ini untuk mendapatkan fitur dari teks yang diberikan di Pytorch:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )dan di TensorFlow:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )Belabbert diawali dengan versi Belanda dari Oscar Corpus yang tidak disempit , model Bert Belanda saat ini Robbert dilatih pada versi corpus ini yang dikocok . Setelah Deduplikasi, ukuran korpus ini adalah 32GB
Teks-teks tersebut tokenized menggunakan versi byte dari encoding-pair encoding (BPE) dan ukuran kosa kata 50.000. Input dari model mengambil potongan 512 token berdekatan yang dapat menjangkau dokumen. Tokenizer dilatih pada teks -teks Belanda, awal dokumen baru ditandai dengan <s> dan akhir dari satu oleh </s>
Rincian prosedur masking untuk setiap kalimat adalah sebagai berikut:
<mask> .Berlawanan dengan Bert, masking dilakukan secara dinamis selama pretraining (misalnya, itu berubah pada setiap zaman dan tidak diperbaiki).
Model ini dilatih pada 4 Titan RTX GPU untuk langkah 115 ribu dengan ukuran batch 1,3K dan panjang urutan 512. Pengoptimal yang digunakan adalah Adam dengan laju pembelajaran 5E-5 ,, dan, peluruhan berat 0,01, pemanasan tingkat pembelajaran untuk langkah 20000 dan peluruhan linier dari tingkat pembelajaran setelah.
Karena batasan kredit pada HPC saya tidak dapat melakukan finetune belabbert pada tugas evaluasi umum.
Namun, Belabbert cenderung mengungguli Robbert saat ini karena Belabbert menggunakan tokenizer Belanda di mana Robbert dilatih dengan tokenizer Inggris. Selain itu, Robbert dilatih pada corpus yang dikocok (pada tingkat garis) sementara Belabbert dilatih pada versi yang tidak diselesaikan dari korpus yang sama, ini membuat Belabbert lebih mampu menangani urutan teks yang panjang.
Pekerjaan ini dilakukan pada infrastruktur elektronik nasional Belanda dengan dukungan Surf Cooperative.
Terima kasih kepada pembangun Corpus Oscar karena memberi saya izin untuk menggunakan versi Belanda yang tidak tertutup
Teriakan besar ke @elsloooo yang brilian untuk nama model ini?
Berkat kartu model Roberta untuk format/teks ReadMe.