bert_distill
1.0.0
リファレンスペーパー「BertからSimple Neural Networksにタスク固有の知識を蒸留する」
実験は、それぞれKerasとPytorchを使用してTextCNNおよびBILSTM(GRU)に基づいて実施されました。
実験データは1(タグトレーニング)に分割されます:8(ラベルトレーニングなし):1(テスト)
感情2分類衣類のデータセットの予備的な結果は次のとおりです。
小さなモデルの精度(textcnn&bilstm)は0.80〜0.81の間です
BERTモデルの精度は0.90〜0.91です
蒸留モデルの精度は0.87〜0.88の間です
実験結果は基本的に論文の結論と一致しており、期待と一致しています
他のより効果的な蒸留スキームは後で試されます
まず第一に、Finetune Bert
python ptbert.py次に、バートの知識を小さなモデルに蒸留します
最初にdata/cache/word2vec.gzを解凍する必要があります
それから
python distill.py use_augを調整し、ファイル内の次のパラメーターを使用すると、ペーパーで言及されている2つのデータ強化方法を使用できます(マスキング、n-gramサンプリング)