bert_distill
1.0.0
參考論文《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》
分別採用keras和pytorch基於textcnn和bilstm(gru)進行了實驗
實驗數據分割成1(有標籤訓練):8(無標籤訓練):1(測試)
在情感2分類clothing的數據集上初步結果如下:
小模型(textcnn & bilstm)準確率在0.80 ~ 0.81
BERT模型準確率在0.90 ~ 0.91
蒸餾模型準確率在0.87 ~ 0.88
實驗結果與論文結論基本一致,與預期相符
後續將嘗試其他更有效的蒸餾方案
首先finetune BERT
python ptbert.py然後把BERT的知識蒸餾到小模型裡
需要先解壓data/cache/word2vec.gz
然後
python distill.py調整文件中的use_aug及以下的參數可以使用論文中提到的其中兩種數據增強方式(masking, n-gram sampling)