이 모델의 현재 릴리스 는 아직 완전히 훈련되지 않았으며,이 모델의 완전히 훈련 된 버전은 이번 달 후반에 출시 될 예정입니다.
MLM (Masked Language Modeling) 목표를 사용하여 네덜란드의 Unshuffled Oscar Corpus에 사방 된 새로운 네덜란드 Roberta 기반 언어 모델. 이 모델은 사례에 민감하며 구두점이 포함되어 있습니다. 포옹 페이스? 트랜스포머 라이브러리는 사전 계약 과정에 사용되었습니다
마스킹 된 언어 모델링을 위해이 모델을 직접 사용할 수 있습니다.
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]이 모델을 사용하여 Pytorch에서 주어진 텍스트의 기능을 얻는 방법은 다음과 같습니다.
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )그리고 Tensorflow에서 :
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )Belabbert는 현재 최첨단 네덜란드 버트 모델 Robbert 가이 코퍼스의 섞인 버전에 대해 훈련을 받았습니다. 중복 제거 후이 코퍼스의 크기는 32GB였습니다
텍스트는 바이트 버전의 BYTE-PAIR Encoding (BPE)과 어휘 크기 50.000을 사용하여 토큰 화됩니다. 모델의 입력은 문서에 걸쳐있을 수있는 512 개의 인접 토큰 조각을 가져옵니다. 토큰 화기는 네덜란드어 텍스트에 대해 훈련을 받았으며 새 문서의 시작에는 <s> 가 표시되고 끝은 </s> 로 표시됩니다.
각 문장에 대한 마스킹 절차의 세부 사항은 다음과 같습니다.
<mask> 로 대체됩니다.버트와는 달리, 마스킹은 사전 조정 중에 동적으로 수행됩니다 (예 : 각 에포크에서 변경되며 고정되지 않았습니다).
이 모델은 배치 크기 1.3K이고 서열 길이가 512 인 115K 단계에 대해 4 개의 Titan RTX GPU에 대해 교육을 받았습니다. 사용 된 최적화기는 5E-5의 학습 속도를 가진 Adam입니다.
HPC의 신용 한도로 인해 일반적인 평가 작업에 대해 Belabbert를 미세하게 할 수 없었습니다.
그러나 Belabbert는 Belabbert가 Robbert가 영어 토큰 화기로 훈련되는 네덜란드 토큰 화기를 사용하기 때문에 현재의 최첨단 강도보다 성능이 우수합니다. 게다가 Robbert는 셔플 된 코퍼스 (라인 레벨)에 대해 훈련을 받고 Belabbert는 동일한 코퍼스의 붕괴되지 않은 버전에 대해 훈련을 받았기 때문에 Belabbert는 긴 텍스트를 다룰 수 있습니다.
이 작업은 Surf Cooperative의 지원을 통해 네덜란드 국가 전자 인프라에서 수행되었습니다.
Unshuffled Dutch 버전을 사용할 수있는 권한을 부여한 Oscar Corpus의 건축업자 덕분
이 모델의 이름에 대해 화려한 @elslooo에게 큰 소리를 지르고 있습니까?
readme 형식/텍스트에 대한 Roberta의 모델 카드에 감사드립니다.