belabBERTダウンロード - belabBERTソースコードのダウンロード

belabBERT

AI ソースコード

1.0.0

ダウンロード

ベラバート？

このモデルの現在のリリースはまだ完全にトレーニングされていないことに注意してください。完全に訓練されたバージョンのモデルは今月後半にリリースされます

マスクされた言語モデリング（MLM）の目的を使用して、オランダの整理されていないオスカーコーパスに前提とされた、オランダのロベルタベースの新しい言語モデル。モデルは症例に敏感で、句読点が含まれます。ハギングフェイス？変圧器ライブラリは、事前削除プロセスに使用されました

モデルの説明

使い方

このモデルをマスクされた言語モデリング用のパイプラインで直接使用できます。

 > >> from transformers import pipeline
> >> unmasker = pipeline ( 'fill-mask' , model = 'jwouts/belabBERT_115k' , tokenizer = 'jwouts/belabBERT_115k' )
> >> unmasker ( "Hoi ik ben een <mask> model." )

[{ 'sequence' : '<s>Hoi ik ben een dames model.</s>' ,
  'score' : 0.05529128015041351 ,
  'token' : 3079 ,
  'token_str' : 'Ġdames' },
 { 'sequence' : '<s>Hoi ik ben een kleding model.</s>' ,
  'score' : 0.042242035269737244 ,
  'token' : 3333 ,
  'token_str' : 'Ġkleding' },
 { 'sequence' : '<s>Hoi ik ben een mode model.</s>' ,
  'score' : 0.04132745787501335 ,
  'token' : 6541 ,
  'token_str' : 'Ġmode' },
 { 'sequence' : '<s>Hoi ik ben een horloge model.</s>' ,
  'score' : 0.029257522895932198 ,
  'token' : 7196 ,
  'token_str' : 'Ġhorloge' },
 { 'sequence' : '<s>Hoi ik ben een sportief model.</s>' ,
  'score' : 0.028365155681967735 ,
  'token' : 15357 ,
  'token_str' : 'Ġsportief' }]

このモデルを使用して、Pytorchで特定のテキストの機能を取得する方法は次のとおりです。

 from transformers import RobertaTokenizer , RobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = RobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'pt' )
output = model ( ** encoded_input )

そしてTensorflowで：

 from transformers import RobertaTokenizer , TFRobertaModel
tokenizer = RobertaTokenizer . from_pretrained ( 'jwouts/belabBERT_115k' )
model = TFRobertaModel . from_pretrained ( 'jwouts/belabBERT_115k' )
text = "Vervang deze tekst."
encoded_input = tokenizer ( text , return_tensors = 'tf' )
output = model ( encoded_input )

ノートをリリースします

レポの公開：24/06 / 2020
150mバッチでのモデルの公開：10 / 07/2020
完全に訓練されたモデルの公開：TBD

トレーニングデータ

ベラバートは、現在の最先端のダッチバートモデルであるロブバートが、このコーパスのシャッフルバージョンで訓練されたオランダ版のshufth的なオスカーコーパスで前提とされていました。重複排除の後、このコーパスのサイズは32GBでした

トレーニング手順

前処理

テキストは、バイトペアエンコード（BPE）のバイトバージョンと50.000の語彙サイズを使用してトークン化されます。モデルの入力は、ドキュメントにまたがる可能性のある512の隣接するトークンの断片を取ります。トークンザーはオランダのテキストで訓練され、新しいドキュメントの始まりには<s>がマークされ、1つの終わりは</s>にマークされています。

各文のマスキング手順の詳細は次のとおりです。

トークンの20％がマスクされています。
ケースの80％で、マスクされたトークンは<mask>に置き換えられます。
ケースの10％で、マスクされたトークンは、交換したトークンと交換されたトークン（異なる）に置き換えられます。
残りの10％の場合、マスクされたトークンはそのまま残っています。

Bertとは反対に、マスキングは前oraining前に動的に行われます（たとえば、各エポックで変化し、固定されていません）。

事前脱出

このモデルは、1.3kのバッチサイズと512のシーケンス長で115Kステップで4つのTitan RTX GPUでトレーニングされました。使用されるオプティマイザーは、5E-5の学習率を持つADAMであり、0.01の重量減衰、20000ステップの学習レートウォームアップ、学習率の直線減衰。

評価結果

HPCの信用制限により、一般的な評価タスクでベラバートを獲得することができませんでした。

しかし、ベラバートはロブバートが英語のトークナイザーで訓練されているオランダのトークナイザーを使用しているため、ベラバートは現在の最先端のロバートを上回る可能性があります。それに加えて、ロブバートはシャッフルされたコーパス（ラインレベル）で訓練されていますが、ベラバートは同じコーパスのシャッフルバージョンで訓練されています。