لاحظ أن الإصدار الحالي لهذا النموذج لم يتم تدريبه بالكامل بعد ، سيتم إصدار النسخة المدربة بالكامل من النموذج في وقت لاحق من هذا الشهر
نموذج اللغة الهولندي روبرتا الجديد ، تم تجهيزه على جثة الأوسكار الهولندية غير المليئة باستخدام هدف نمذجة اللغة المقنعة (MLM). النموذج حساس للحالة ويشمل علامات الترقيم. الواجهة المعانقة؟ تم استخدام مكتبة المحولات لعملية ما قبل الرصاص
يمكنك استخدام هذا النموذج مباشرة مع خط أنابيب لنمذجة اللغة المقنعة:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]فيما يلي كيفية استخدام هذا النموذج للحصول على ميزات نص معين في Pytorch:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )وفي Tensorflow:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )تم تدريب Belabbert على النسخة الهولندية من Corpus Oscar Corpus غير المليئة ، تم تدريب طراز Bert الهولندي الحالي Robbert على النسخة المخلوطة من هذه المجموعة. بعد إلغاء البيانات ، كان حجم هذه المجموعة 32 جيجابايت
يتم رمز النصوص باستخدام إصدار بايت من ترميز بايت باير (BPE) وحجم المفردات 50.000. تأخذ مدخلات النموذج قطعًا من 512 رمزًا متجاورًا قد تمتد على المستندات. تم تدريب الرمز المميز على النصوص الهولندية ، ويتم تمييز بداية وثيقة جديدة مع <s> ونهاية واحدة من </s>
تفاصيل إجراء الإخفاء لكل جملة هي ما يلي:
<mask> .على عكس Bert ، يتم التقنيع ديناميكيًا أثناء التدريب (على سبيل المثال ، يتغير في كل فترة ولا يتم إصلاحه).
تم تدريب النموذج على 4 Titan RTX GPUs مقابل 115 ألف خطوة مع حجم دفعة قدره 1.3 ألف وطول تسلسل 512. المحسن المستخدم هو آدم مع معدل التعلم 5E-5 ، ، ، وهامت الوزن 0.01 ، معدل تسخين معدل التعلم ل 20000 خطوة من معدل التعلم بعد.
نظرًا لقيود الائتمان على HPC لم أتمكن من Finetune Belabbert على مهام التقييم المشتركة.
ومع ذلك ، من المرجح أن يتفوق Belabbert على أحدث روبين ، لأن Belabbert يستخدم رمزًا هولنديًا حيث يتم تدريب Robbert مع Tokenizer باللغة الإنجليزية. علاوة على ذلك ، تم تدريب Robbert على مجموعة متقطعة (على مستوى الخط) بينما يتم تدريب Belabbert على النسخة غير المقلدة من نفس المجموعة ، وهذا يجعل Belabbert أكثر قدرة على التعامل مع تسلسلات طويلة من النص.
تم تنفيذ هذا العمل على البنية الفرعية الوطنية الهولندية بدعم من Surf Cooperative.
بفضل بناة جسم أوسكار لإعطائي إذنًا لاستخدام الإصدار الهولندي غير المتواصل
يصرخ كبير إلى Brillianteliantslooo لاسم هذا النموذج؟
بفضل بطاقة نموذج روبرتا لتنسيق/نص ReadMe.