belabBERT Download - belabBERT Quellcode herunterladen

belabBERT

AI-Quellcode

1.0.0

Herunterladen

Belabbert?

Beachten Sie, dass die aktuelle Version dieses Modells noch nicht vollständig ausgebildet ist. Die voll ausgebildete Version des Modells wird später in diesem Monat veröffentlicht

Ein neues niederländisches Sprachmodell mit Sitz in Roberta, das auf dem niederländischen Oscar Corpus mit dem MLM -Ziel (Masked Language Modeling) vorbereitet wurde. Das Modell ist fallempfindlich und umfasst Interpunktion. Das Umarmungsfeld? Die Transformator -Bibliothek wurde für den Vorbereitungsverfahren verwendet

Modellbeschreibung

Wie man benutzt

Sie können dieses Modell direkt mit einer Pipeline für maskierte Sprachmodellierung verwenden:

 > >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )

[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
  'score' : 0.05529128015041351 ,
  'token' : 3079 ,
  'token_str' : 'Ġdames' },
 { 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
  'score' : 0.042242035269737244 ,
  'token' : 3333 ,
  'token_str' : 'Ġkleding' },
 { 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
  'score' : 0.04132745787501335 ,
  'token' : 6541 ,
  'token_str' : 'Ġmode' },
 { 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
  'score' : 0.029257522895932198 ,
  'token' : 7196 ,
  'token_str' : 'Ġhorloge' },
 { 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
  'score' : 0.028365155681967735 ,
  'token' : 15357 ,
  'token_str' : 'Ġsportief' }]

Hier erfahren Sie, wie Sie dieses Modell verwenden, um die Funktionen eines bestimmten Textes in Pytorch zu erhalten:

 from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )

und im Tensorflow:

 from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )

Versionshinweise

Veröffentlichung von Repo: 24/06 / 2020
Veröffentlichung des Modells bei 150 m Stapel: 10/07/2020
Veröffentlichung eines voll ausgebildeten Modells: TBD

Trainingsdaten

Belabbert wurde in der niederländischen Version des nicht geschaffenen Oscar Corpus vorgebracht. Das aktuelle hochmoderne niederländische Bert-Modell Robbert wurde auf der gemischten Version dieses Korpus ausgebildet. Nach der Deduplizierung betrug die Größe dieses Korpus 32 GB

Schulungsverfahren

Vorverarbeitung

Die Texte werden unter Verwendung einer Byte-Version der Byte-Pair-Codierung (BPE) und einer Vokabulargröße von 50.000 tokenisiert. Die Eingaben des Modells nehmen Stücke von 512 zusammenhängenden Token auf, die über Dokumente erstrecken können. Der Tokenizer wurde in niederländischen Texten ausgebildet, der Beginn eines neuen Dokuments ist mit <s> und am Ende eines von </s> gekennzeichnet

Die Details des Maskierungsverfahrens für jeden Satz sind Folgendes:

20% der Token sind maskiert.
In 80% der Fälle werden die maskierten Token durch <mask> ersetzt.
In 10% der Fälle werden die maskierten Token durch einen zufälligen Token (anders) von dem ersetzt, den sie ersetzen.
In den verbleibenden Fällen von 10% bleiben die maskierten Token wie sie sind.

Im Gegensatz zu Bert erfolgt die Maskierung während der Vorbereitung dynamisch (z. B. ändert sich sie in jeder Epoche und ist nicht festgelegt).

Vorab

Das Modell wurde auf 4 Titan RTX-GPUs für 115K-Schritte mit einer Chargengröße von 1,3 K und einer Sequenzlänge von 512 trainiert. Der verwendete Optimierer ist Adam mit einer Lernrate von 5E-5, und einem Gewichtsverfall von 0,01 für 20000 Schritte und des linearen Abfalls des Lernrate nach der Lernrate nach der Lernrate nach der Lernrate.

Bewertungsergebnisse

Aufgrund von Kreditbeschränkungen für das HPC konnte ich Belabbert nicht über die gemeinsamen Bewertungsaufgaben abschließen.

Belabbert wird jedoch wahrscheinlich den aktuellen hochmodernen Robbert übertreffen, da Belabbert einen niederländischen Tokenizer verwendet, bei dem Robbert mit einem englischen Tokenizer trainiert wird. Darüber hinaus wird Robbert auf einem gemischten Korpus (auf Linienebene) ausgebildet, während Belabbert auf der nicht geschaffenen Version desselben Korpus trainiert wird. Dies macht Belabbert fähiger, um mit langen Textsequenzen umzugehen.