Примечание. Текущий выпуск этой модели еще не полностью обучен, полностью обученная версия модели будет выпущена в конце этого месяца
Новая голландская языковая модель на базирующейся в Роберте, предварительно подготовленная на голландском неразрываемом корпусе Оскара с использованием цели маскарного языка (MLM). Модель чувствительна к корпусу и включает пунктуацию. Huggingface? Библиотека трансформаторов использовалась для процесса предварительной подготовки
Вы можете использовать эту модель напрямую с помощью конвейера для моделирования языка в масках:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]Вот как использовать эту модель, чтобы получить функции данного текста в Pytorch:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )и в TensorFlow:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )Белабберт был предварительно подготовлен на голландской версии нерастожденного корпуса Оскара, нынешнего современного голландского модели Bert Model Robbert была обучена перетасованной версии этого корпуса. После дедупликации размер этого корпуса составлял 32 ГБ
Тексты токенизируются с использованием байтовой версии кодирования байтовой пары (BPE) и размер словарного запаса 50 000. Входные данные модели принимают части 512 смежного токена, которые могут охватывать документы. Токенизатор был обучен голландским текстам, начало нового документа отмечено <s> , а конец одного - </s>
Детали процедуры маскировки для каждого предложения являются следующими:
<mask> .В отличие от Берта, маскировка выполняется динамически во время предварительной подготовки (например, она меняется в каждую эпоху и не фиксирован).
Модель была обучена на 4 графических процессора Titan RTX для 115K шагов с размером партии 1,3 тыс. И длиной последовательности 512. Используемый оптимизатор-это Адам с скоростью обучения 5E-5, и, затуханием веса 0,01, разминку обучения для 20000 шагов и линейным распадом обучения после.
Из -за кредитных ограничений на HPC я не смог определить Белабберт в отношении общих задач оценки.
Тем не менее, Белабберт, вероятно, превзойдет текущий современный грабит, так как Белабберт использует голландский токенизатор, где Robbert обучен английским токенизаторам. Кроме того, Робберт обучается перетасованному корпусу (на уровне линии), в то время как Белабберт обучается на непокащной версии того же корпуса, что делает Белаббер более способным иметь дело с длинными последовательностями текста.
Эта работа была выполнена в голландской национальной электронном инфраструктуре при поддержке кооператива для серфинга.
Благодаря строителям корпуса Оскара за то, что он дал мне разрешение на использование не взволнованной голландской версии
Главный крик блестящему @elslooo для названия этой модели?
Спасибо модельной карте Роберты за формат/текст Readme.