Beachten Sie, dass die aktuelle Version dieses Modells noch nicht vollständig ausgebildet ist. Die voll ausgebildete Version des Modells wird später in diesem Monat veröffentlicht
Ein neues niederländisches Sprachmodell mit Sitz in Roberta, das auf dem niederländischen Oscar Corpus mit dem MLM -Ziel (Masked Language Modeling) vorbereitet wurde. Das Modell ist fallempfindlich und umfasst Interpunktion. Das Umarmungsfeld? Die Transformator -Bibliothek wurde für den Vorbereitungsverfahren verwendet
Sie können dieses Modell direkt mit einer Pipeline für maskierte Sprachmodellierung verwenden:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]Hier erfahren Sie, wie Sie dieses Modell verwenden, um die Funktionen eines bestimmten Textes in Pytorch zu erhalten:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )und im Tensorflow:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )Belabbert wurde in der niederländischen Version des nicht geschaffenen Oscar Corpus vorgebracht. Das aktuelle hochmoderne niederländische Bert-Modell Robbert wurde auf der gemischten Version dieses Korpus ausgebildet. Nach der Deduplizierung betrug die Größe dieses Korpus 32 GB
Die Texte werden unter Verwendung einer Byte-Version der Byte-Pair-Codierung (BPE) und einer Vokabulargröße von 50.000 tokenisiert. Die Eingaben des Modells nehmen Stücke von 512 zusammenhängenden Token auf, die über Dokumente erstrecken können. Der Tokenizer wurde in niederländischen Texten ausgebildet, der Beginn eines neuen Dokuments ist mit <s> und am Ende eines von </s> gekennzeichnet
Die Details des Maskierungsverfahrens für jeden Satz sind Folgendes:
<mask> ersetzt.Im Gegensatz zu Bert erfolgt die Maskierung während der Vorbereitung dynamisch (z. B. ändert sich sie in jeder Epoche und ist nicht festgelegt).
Das Modell wurde auf 4 Titan RTX-GPUs für 115K-Schritte mit einer Chargengröße von 1,3 K und einer Sequenzlänge von 512 trainiert. Der verwendete Optimierer ist Adam mit einer Lernrate von 5E-5, und einem Gewichtsverfall von 0,01 für 20000 Schritte und des linearen Abfalls des Lernrate nach der Lernrate nach der Lernrate nach der Lernrate.
Aufgrund von Kreditbeschränkungen für das HPC konnte ich Belabbert nicht über die gemeinsamen Bewertungsaufgaben abschließen.
Belabbert wird jedoch wahrscheinlich den aktuellen hochmodernen Robbert übertreffen, da Belabbert einen niederländischen Tokenizer verwendet, bei dem Robbert mit einem englischen Tokenizer trainiert wird. Darüber hinaus wird Robbert auf einem gemischten Korpus (auf Linienebene) ausgebildet, während Belabbert auf der nicht geschaffenen Version desselben Korpus trainiert wird. Dies macht Belabbert fähiger, um mit langen Textsequenzen umzugehen.
Diese Arbeit wurde in der niederländischen nationalen E-Infrastruktur mit Unterstützung der Surfgenossenschaft durchgeführt.
Vielen Dank an die Bauherren des Oscar Corpus, die mir die Erlaubnis gegeben haben, die nicht falsche niederländische Version zu verwenden
Ein großer Schrei an den brillanten @elslooo für den Namen dieses Modells?
Vielen Dank an die Modellkarte von Roberta für das Readme -Format/Text.