このモデルの現在のリリースはまだ完全にトレーニングされていないことに注意してください。完全に訓練されたバージョンのモデルは今月後半にリリースされます
マスクされた言語モデリング(MLM)の目的を使用して、オランダの整理されていないオスカーコーパスに前提とされた、オランダのロベルタベースの新しい言語モデル。モデルは症例に敏感で、句読点が含まれます。ハギングフェイス?変圧器ライブラリは、事前削除プロセスに使用されました
このモデルをマスクされた言語モデリング用のパイプラインで直接使用できます。
> >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )
[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
'score' : 0.05529128015041351 ,
'token' : 3079 ,
'token_str' : 'Ġdames' },
{ 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
'score' : 0.042242035269737244 ,
'token' : 3333 ,
'token_str' : 'Ġkleding' },
{ 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
'score' : 0.04132745787501335 ,
'token' : 6541 ,
'token_str' : 'Ġmode' },
{ 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
'score' : 0.029257522895932198 ,
'token' : 7196 ,
'token_str' : 'Ġhorloge' },
{ 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
'score' : 0.028365155681967735 ,
'token' : 15357 ,
'token_str' : 'Ġsportief' }]このモデルを使用して、Pytorchで特定のテキストの機能を取得する方法は次のとおりです。
from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )そしてTensorflowで:
from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )ベラバートは、現在の最先端のダッチバートモデルであるロブバートが、このコーパスのシャッフルバージョンで訓練されたオランダ版のshufth的なオスカーコーパスで前提とされていました。重複排除の後、このコーパスのサイズは32GBでした
テキストは、バイトペアエンコード(BPE)のバイトバージョンと50.000の語彙サイズを使用してトークン化されます。モデルの入力は、ドキュメントにまたがる可能性のある512の隣接するトークンの断片を取ります。トークンザーはオランダのテキストで訓練され、新しいドキュメントの始まりには<s>がマークされ、1つの終わりは</s>にマークされています。
各文のマスキング手順の詳細は次のとおりです。
<mask>に置き換えられます。Bertとは反対に、マスキングは前oraining前に動的に行われます(たとえば、各エポックで変化し、固定されていません)。
このモデルは、1.3kのバッチサイズと512のシーケンス長で115Kステップで4つのTitan RTX GPUでトレーニングされました。使用されるオプティマイザーは、5E-5の学習率を持つADAMであり、0.01の重量減衰、20000ステップの学習レートウォームアップ、学習率の直線減衰。
HPCの信用制限により、一般的な評価タスクでベラバートを獲得することができませんでした。
しかし、ベラバートはロブバートが英語のトークナイザーで訓練されているオランダのトークナイザーを使用しているため、ベラバートは現在の最先端のロバートを上回る可能性があります。それに加えて、ロブバートはシャッフルされたコーパス(ラインレベル)で訓練されていますが、ベラバートは同じコーパスのシャッフルバージョンで訓練されています。
この作業は、サーフ協同組合の支援を受けて、オランダ国民の電子インフラクトルで行われました。
オスカーコーパスの建設業者に感謝します。
このモデルの名前については、Brillation @Elslooooに大きな叫び声を上げますか?
README形式/テキストについては、Robertaのモデルカードに感謝します。