belabBERT 다운로드 - belabBERT 소스 코드 다운로드

belabBERT

AI 소스 코드

1.0.0

다운로드

벨라버트?

이 모델의 현재 릴리스 는 아직 완전히 훈련되지 않았으며,이 모델의 완전히 훈련 된 버전은 이번 달 후반에 출시 될 예정입니다.

MLM (Masked Language Modeling) 목표를 사용하여 네덜란드의 Unshuffled Oscar Corpus에 사방 된 새로운 네덜란드 Roberta 기반 언어 모델. 이 모델은 사례에 민감하며 구두점이 포함되어 있습니다. 포옹 페이스? 트랜스포머 라이브러리는 사전 계약 과정에 사용되었습니다

모델 설명

사용 방법

마스킹 된 언어 모델링을 위해이 모델을 직접 사용할 수 있습니다.

 > >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )

[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
  'score' : 0.05529128015041351 ,
  'token' : 3079 ,
  'token_str' : 'Ġdames' },
 { 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
  'score' : 0.042242035269737244 ,
  'token' : 3333 ,
  'token_str' : 'Ġkleding' },
 { 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
  'score' : 0.04132745787501335 ,
  'token' : 6541 ,
  'token_str' : 'Ġmode' },
 { 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
  'score' : 0.029257522895932198 ,
  'token' : 7196 ,
  'token_str' : 'Ġhorloge' },
 { 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
  'score' : 0.028365155681967735 ,
  'token' : 15357 ,
  'token_str' : 'Ġsportief' }]

이 모델을 사용하여 Pytorch에서 주어진 텍스트의 기능을 얻는 방법은 다음과 같습니다.

 from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )

그리고 Tensorflow에서 :

 from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )

릴리스 노트

Repo의 출판 : 24 / 06 / 2020
150m 배치에서 모델 출판 : 10 / 07 / 2020
완전히 훈련 된 모델 출판 : TBD

교육 데이터

Belabbert는 현재 최첨단 네덜란드 버트 모델 Robbert 가이 코퍼스의 섞인 버전에 대해 훈련을 받았습니다. 중복 제거 후이 코퍼스의 크기는 32GB였습니다

훈련 절차

전처리

텍스트는 바이트 버전의 BYTE-PAIR Encoding (BPE)과 어휘 크기 50.000을 사용하여 토큰 화됩니다. 모델의 입력은 문서에 걸쳐있을 수있는 512 개의 인접 토큰 조각을 가져옵니다. 토큰 화기는 네덜란드어 텍스트에 대해 훈련을 받았으며 새 문서의 시작에는 <s> 가 표시되고 끝은 </s> 로 표시됩니다.

각 문장에 대한 마스킹 절차의 세부 사항은 다음과 같습니다.

토큰의 20%가 마스킹됩니다.
80%의 경우 마스크 토큰은 <mask> 로 대체됩니다.
10%의 경우 마스크 된 토큰은 교체 된 것과 임의의 토큰 (다른 토큰)으로 대체됩니다.
남은 10%의 경우 마스크 된 토큰이 그대로 남아 있습니다.

버트와는 달리, 마스킹은 사전 조정 중에 동적으로 수행됩니다 (예 : 각 에포크에서 변경되며 고정되지 않았습니다).

사전 조정

이 모델은 배치 크기 1.3K이고 서열 길이가 512 인 115K 단계에 대해 4 개의 Titan RTX GPU에 대해 교육을 받았습니다. 사용 된 최적화기는 5E-5의 학습 속도를 가진 Adam입니다.

평가 결과

HPC의 신용 한도로 인해 일반적인 평가 작업에 대해 Belabbert를 미세하게 할 수 없었습니다.

그러나 Belabbert는 Belabbert가 Robbert가 영어 토큰 화기로 훈련되는 네덜란드 토큰 화기를 사용하기 때문에 현재의 최첨단 강도보다 성능이 우수합니다. 게다가 Robbert는 셔플 된 코퍼스 (라인 레벨)에 대해 훈련을 받고 Belabbert는 동일한 코퍼스의 붕괴되지 않은 버전에 대해 훈련을 받았기 때문에 Belabbert는 긴 텍스트를 다룰 수 있습니다.