注意此模型的當前發行版尚未完全訓練,該模型的訓練版本將於本月晚些時候發布
一種新的基於荷蘭羅伯塔語的新語言模型,使用蒙版語言建模(MLM)目標仔細研究了荷蘭未共享的奧斯卡語料庫。該模型對病例敏感,包括標點符號。擁抱面?變壓器庫用於訓練過程
您可以直接將此模型與管道直接用於掩蓋語言建模:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]這是如何使用此模型在Pytorch中獲取給定文本的功能的方法:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )在TensorFlow中:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )貝拉伯特(Belabbert)在荷蘭版的《未休息的奧斯卡語料庫》(Oscar Corpus)上進行了預估計,當前最先進的荷蘭伯特模特羅伯特(Robbert)接受了該語料庫的改組版的培訓。重複數據刪除後,該語料庫的大小為32GB
文本使用字節版本的字節對編碼(BPE)和詞彙大小為50.000。該模型的輸入採用可能跨越文檔的512個連續令牌。 Tokenizer在荷蘭文本上進行了培訓,新文檔的開頭用<s>標記,並且</s>的結束
每個句子的掩蔽過程的詳細信息如下:
<mask>取代。與BERT相反,掩蔽是在預處理過程中動態進行的(例如,它在每個時期變化,而不是固定)。
該模型在4個Titan RTX GPU上進行了115K步驟的培訓,其批量大小為1.3K,序列長度為512。所使用的優化器是Adam,學習率為5E-5,重量衰減為0.01,學習率為20000年的學習率和line速度的學習率和線性衰減。
由於HPC的信用限制,我無法對常見評估任務進行挑戰。
但是,貝拉伯特(Belabbert)的表現可能勝過當前最新的羅伯特(Robbert),因為貝拉伯特(Belabbert)使用了荷蘭令牌,羅伯特(Robbert)接受了英國令牌的培訓。最重要的是,羅伯特(Robbert)接受了混亂的語料庫(在線級別)的訓練,而貝拉伯特(Belabbert)接受了同一語料庫的無所作為的培訓,這使得貝拉伯特(Belabbert)更有能力處理長期的文本序列。
這項工作是在衝浪合作社的支持下在荷蘭國家電子基礎設施上進行的。
感謝奧斯卡語料庫的建築商,允許我使用未享用的荷蘭語版本
向Brillian @elslooo大聲喊叫此模型的名稱?
感謝Roberta的模型卡的讀數格式/文本。