Kertas Referensi "Pengetahuan khusus tugas dari Bert ke jaringan saraf sederhana"
Eksperimen dilakukan berdasarkan Textcnn dan Bilstm (GRU) masing -masing menggunakan Keras dan Pytorch.
Data eksperimental dibagi menjadi 1 (pelatihan tag): 8 (tidak ada pelatihan label): 1 (tes)
Hasil awal pada dataset pakaian klasifikasi emosi 2 adalah sebagai berikut:
Keakuratan model kecil (Textcnn & Bilstm) adalah antara 0,80 dan 0,81
Keakuratan model BerT adalah antara 0,90 dan 0,91
Keakuratan model distilasi adalah antara 0,87 dan 0,88
Hasil eksperimen pada dasarnya konsisten dengan kesimpulan kertas dan konsisten dengan harapan
Skema distilasi lainnya yang lebih efektif akan dicoba nanti
Pertama -tama, Finetune Bert
python ptbert.pyKemudian distil pengetahuan Bert ke dalam model kecil
Anda perlu mendekompres data/cache/word2vec.gz pertama
Kemudian
python distill.py Menyesuaikan use_aug dan parameter berikut dalam file dapat menggunakan dua metode peningkatan data yang disebutkan dalam makalah (Masking, N-Gram Sampling)