Скачать belabBERT - Загрузка исходного кода belabBERT

belabBERT

AI Исходный код

1.0.0

Скачать

Белабберт?

Примечание. Текущий выпуск этой модели еще не полностью обучен, полностью обученная версия модели будет выпущена в конце этого месяца

Новая голландская языковая модель на базирующейся в Роберте, предварительно подготовленная на голландском неразрываемом корпусе Оскара с использованием цели маскарного языка (MLM). Модель чувствительна к корпусу и включает пунктуацию. Huggingface? Библиотека трансформаторов использовалась для процесса предварительной подготовки

Описание модели

Как использовать

Вы можете использовать эту модель напрямую с помощью конвейера для моделирования языка в масках:

 > >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )

[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
  'score' : 0.05529128015041351 ,
  'token' : 3079 ,
  'token_str' : 'Ġdames' },
 { 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
  'score' : 0.042242035269737244 ,
  'token' : 3333 ,
  'token_str' : 'Ġkleding' },
 { 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
  'score' : 0.04132745787501335 ,
  'token' : 6541 ,
  'token_str' : 'Ġmode' },
 { 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
  'score' : 0.029257522895932198 ,
  'token' : 7196 ,
  'token_str' : 'Ġhorloge' },
 { 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
  'score' : 0.028365155681967735 ,
  'token' : 15357 ,
  'token_str' : 'Ġsportief' }]

Вот как использовать эту модель, чтобы получить функции данного текста в Pytorch:

 from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )

и в TensorFlow:

 from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )

Выпуск заметок

Публикация репо: 24/06/2020
Публикация модели на 150 млн пакетов: 10/07/2020
Публикация полностью обученной модели: TBD

Данные обучения

Белабберт был предварительно подготовлен на голландской версии нерастожденного корпуса Оскара, нынешнего современного голландского модели Bert Model Robbert была обучена перетасованной версии этого корпуса. После дедупликации размер этого корпуса составлял 32 ГБ

Процедура обучения

Предварительная обработка

Тексты токенизируются с использованием байтовой версии кодирования байтовой пары (BPE) и размер словарного запаса 50 000. Входные данные модели принимают части 512 смежного токена, которые могут охватывать документы. Токенизатор был обучен голландским текстам, начало нового документа отмечено <s> , а конец одного - </s>

Детали процедуры маскировки для каждого предложения являются следующими:

20% токенов замаскированы.
В 80% случаев токены в масках заменяются <mask> .
В 10% случаев токены в масках заменяются случайным токеном (отличным) от того, который они заменяют.
В 10% оставшихся случаях токены в маске остаются как есть.

В отличие от Берта, маскировка выполняется динамически во время предварительной подготовки (например, она меняется в каждую эпоху и не фиксирован).

Предварительная подготовка

Модель была обучена на 4 графических процессора Titan RTX для 115K шагов с размером партии 1,3 тыс. И длиной последовательности 512. Используемый оптимизатор-это Адам с скоростью обучения 5E-5, и, затуханием веса 0,01, разминку обучения для 20000 шагов и линейным распадом обучения после.

Результаты оценки

Из -за кредитных ограничений на HPC я не смог определить Белабберт в отношении общих задач оценки.

Тем не менее, Белабберт, вероятно, превзойдет текущий современный грабит, так как Белабберт использует голландский токенизатор, где Robbert обучен английским токенизаторам. Кроме того, Робберт обучается перетасованному корпусу (на уровне линии), в то время как Белабберт обучается на непокащной версии того же корпуса, что делает Белаббер более способным иметь дело с длинными последовательностями текста.