Download belabBERT - Download do código -fonte belabBERT

belabBERT

Código-Fonte de IA

1.0.0

Baixar

Belabbert?

Nota O lançamento atual deste modelo ainda não está totalmente treinado, a versão totalmente treinada do modelo será lançada ainda este mês

Um novo modelo de idioma baseado em Roberta holandês, pré -levado ao corpus do Oscar Dutch Nonfuffled usando o objetivo de modelagem de idiomas mascarado (MLM). O modelo é sensível ao minúsculo e inclui pontuação. O huggingface? Biblioteca de transformadores foi usada para o processo de pré -treinamento

Descrição do modelo

Como usar

Você pode usar este modelo diretamente com um pipeline para modelagem de idiomas mascarada:

 > >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )

[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
  'score' : 0.05529128015041351 ,
  'token' : 3079 ,
  'token_str' : 'Ġdames' },
 { 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
  'score' : 0.042242035269737244 ,
  'token' : 3333 ,
  'token_str' : 'Ġkleding' },
 { 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
  'score' : 0.04132745787501335 ,
  'token' : 6541 ,
  'token_str' : 'Ġmode' },
 { 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
  'score' : 0.029257522895932198 ,
  'token' : 7196 ,
  'token_str' : 'Ġhorloge' },
 { 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
  'score' : 0.028365155681967735 ,
  'token' : 15357 ,
  'token_str' : 'Ġsportief' }]

Aqui está como usar este modelo para obter os recursos de um determinado texto em Pytorch:

 from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )

E em Tensorflow:

 from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )

Notas de liberação

Publicação do Repo: 24/06/2020
Publicação do modelo em 150m lotes: 10/07/2020
Publicação de modelo totalmente treinado: TBD

Dados de treinamento

Belabbert foi pré-criado na versão holandesa do Oscar Corpus não bufado , o atual modelo holandês de Bert de última geração foi treinado na versão embaralhada deste corpus. Após a desduplicação, o tamanho deste corpus era de 32 GB

Procedimento de treinamento

Pré -processamento

Os textos são tokenizados usando uma versão de bytes da codificação de pares de bytes (BPE) e um tamanho de vocabulário de 50.000. As entradas do modelo levam pedaços de 512 token contíguo que podem abranger documentos. O tokenizer foi treinado em textos holandeses, o início de um novo documento é marcado com <s> e o fim de um por </s>

Os detalhes do procedimento de mascaramento para cada frase são os seguintes:

20% dos tokens são mascarados.
Em 80% dos casos, os tokens mascarados são substituídos por <mask> .
Em 10% dos casos, os tokens mascarados são substituídos por um token aleatório (diferente) daquele que substituem.
Nos 10% restantes, os tokens mascarados são deixados como estão.

Ao contrário de Bert, o mascaramento é feito dinamicamente durante o pré -treinamento (por exemplo, muda em cada época e não é fixo).

Pré -fiel

O modelo foi treinado em 4 GPUs de Titan RTX para 115 mil degraus com um tamanho de lotes de 1,3k e um comprimento de sequência de 512. O otimizador usado é Adam com uma taxa de aprendizado de 5E-5, e, uma decaimento de peso de 0,01, aquecimento da taxa de aprendizado para 20000 etapas e a decomposição linear da taxa de aprendizagem após.

Resultados da avaliação

Devido a limitações de crédito no HPC, não consegui o Finetune Belabbert nas tarefas de avaliação comum.

No entanto, é provável que Belabbert supere o atual roubo de última geração, já que Belabbert usa um tokenizador holandês, onde Robbert é treinado com um tokenizador inglês. Além disso, Robbert é treinado em um corpus embaralhado (no nível da linha), enquanto Belabbert é treinado na versão não -decepada do mesmo corpus, isso torna Belabbert mais capaz para lidar com longas sequências de texto.