Nota O lançamento atual deste modelo ainda não está totalmente treinado, a versão totalmente treinada do modelo será lançada ainda este mês
Um novo modelo de idioma baseado em Roberta holandês, pré -levado ao corpus do Oscar Dutch Nonfuffled usando o objetivo de modelagem de idiomas mascarado (MLM). O modelo é sensível ao minúsculo e inclui pontuação. O huggingface? Biblioteca de transformadores foi usada para o processo de pré -treinamento
Você pode usar este modelo diretamente com um pipeline para modelagem de idiomas mascarada:
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]Aqui está como usar este modelo para obter os recursos de um determinado texto em Pytorch:
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )E em Tensorflow:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )Belabbert foi pré-criado na versão holandesa do Oscar Corpus não bufado , o atual modelo holandês de Bert de última geração foi treinado na versão embaralhada deste corpus. Após a desduplicação, o tamanho deste corpus era de 32 GB
Os textos são tokenizados usando uma versão de bytes da codificação de pares de bytes (BPE) e um tamanho de vocabulário de 50.000. As entradas do modelo levam pedaços de 512 token contíguo que podem abranger documentos. O tokenizer foi treinado em textos holandeses, o início de um novo documento é marcado com <s> e o fim de um por </s>
Os detalhes do procedimento de mascaramento para cada frase são os seguintes:
<mask> .Ao contrário de Bert, o mascaramento é feito dinamicamente durante o pré -treinamento (por exemplo, muda em cada época e não é fixo).
O modelo foi treinado em 4 GPUs de Titan RTX para 115 mil degraus com um tamanho de lotes de 1,3k e um comprimento de sequência de 512. O otimizador usado é Adam com uma taxa de aprendizado de 5E-5, e, uma decaimento de peso de 0,01, aquecimento da taxa de aprendizado para 20000 etapas e a decomposição linear da taxa de aprendizagem após.
Devido a limitações de crédito no HPC, não consegui o Finetune Belabbert nas tarefas de avaliação comum.
No entanto, é provável que Belabbert supere o atual roubo de última geração, já que Belabbert usa um tokenizador holandês, onde Robbert é treinado com um tokenizador inglês. Além disso, Robbert é treinado em um corpus embaralhado (no nível da linha), enquanto Belabbert é treinado na versão não -decepada do mesmo corpus, isso torna Belabbert mais capaz para lidar com longas sequências de texto.
Este trabalho foi realizado na infraestrutura eletrônica nacional holandesa com o apoio da Surf Cooperative.
Graças aos construtores do Oscar Corpus por me dar permissão para usar a versão holandesa não sufocada
Um grande grito para o brilhante @elslooo pelo nome deste modelo?
Graças ao cartão modelo de Roberta pelo formato/texto readme.