注意此模型的当前发行版尚未完全训练,该模型的训练版本将于本月晚些时候发布
一种新的基于荷兰罗伯塔语的新语言模型,使用蒙版语言建模(MLM)目标仔细研究了荷兰未共享的奥斯卡语料库。该模型对病例敏感,包括标点符号。拥抱面?变压器库用于训练过程
您可以直接将此模型与管道直接用于掩盖语言建模:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]这是如何使用此模型在Pytorch中获取给定文本的功能的方法:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )在TensorFlow中:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )贝拉伯特(Belabbert)在荷兰版的《未休息的奥斯卡语料库》(Oscar Corpus)上进行了预估计,当前最先进的荷兰伯特模特罗伯特(Robbert)接受了该语料库的改组版的培训。重复数据删除后,该语料库的大小为32GB
文本使用字节版本的字节对编码(BPE)和词汇大小为50.000。该模型的输入采用可能跨越文档的512个连续令牌。 Tokenizer在荷兰文本上进行了培训,新文档的开头用<s>标记,并且</s>的结束
每个句子的掩蔽过程的详细信息如下:
<mask>取代。与BERT相反,掩蔽是在预处理过程中动态进行的(例如,它在每个时期变化,而不是固定)。
该模型在4个Titan RTX GPU上进行了115K步骤的培训,其批量大小为1.3K,序列长度为512。所使用的优化器是Adam,学习率为5E-5,重量衰减为0.01,学习率为20000年的学习率和line速度的学习率和线性衰减。
由于HPC的信用限制,我无法对常见评估任务进行挑战。
但是,贝拉伯特(Belabbert)的表现可能胜过当前最新的罗伯特(Robbert),因为贝拉伯特(Belabbert)使用了荷兰令牌,罗伯特(Robbert)接受了英国令牌的培训。最重要的是,罗伯特(Robbert)接受了混乱的语料库(在线级别)的训练,而贝拉伯特(Belabbert)接受了同一语料库的无所作为的培训,这使得贝拉伯特(Belabbert)更有能力处理长期的文本序列。
这项工作是在冲浪合作社的支持下在荷兰国家电子基础设施上进行的。
感谢奥斯卡语料库的建筑商,允许我使用未享用的荷兰语版本
向Brillian @elslooo大声喊叫此模型的名称?
感谢Roberta的模型卡的读数格式/文本。