Referenzpapier "Destillieren aufgabenspezifisches Wissen von Bert in einfache neuronale Netze"
Die Experimente wurden basierend auf TextCNN und BILSTM (GRU) unter Verwendung von Keras bzw. Pytorch durchgeführt.
Experimentelle Daten sind in 1 (Tag -Training) unterteilt: 8 (kein Etikettentraining): 1 (Test)
Die vorläufigen Ergebnisse auf dem Datensatz von Emotion 2 -Klassifizierungskleidung sind wie folgt:
Die Genauigkeit des kleinen Modells (TextCNN & bilstm) liegt zwischen 0,80 und 0,81
Die Genauigkeit des Bert -Modells liegt zwischen 0,90 und 0,91
Die Genauigkeit des Destillationsmodells liegt zwischen 0,87 und 0,88
Die experimentellen Ergebnisse stimmen im Wesentlichen mit den Schlussfolgerungen des Papiers überein und stimmen mit den Erwartungen überein
Andere effektivere Destillationsschemata werden später ausprobiert
Zunächst einmal Finetune Bert
python ptbert.pyDann das Wissen von Destil Bert in das kleine Modell
Sie müssen zuerst data/cache/word2vec.gz dekomprimieren
Dann
python distill.py Das Anpassen use_aug und die folgenden Parameter in der Datei können zwei der in der Arbeit genannten Datenverbesserungsmethoden verwenden (Maskierung, N-Gramm-Stichprobe).