Document de référence "Distillant les connaissances spécifiques à la tâche de Bert dans des réseaux de neurones simples"
Les expériences ont été menées sur la base de TextCNN et de Bilstm (GRU) en utilisant des keras et des pytorch respectivement.
Les données expérimentales sont divisées en 1 (formation de tag): 8 (pas de formation d'étiquette): 1 (test)
Les résultats préliminaires sur l'ensemble de données des vêtements de classification Emotion 2 sont les suivants:
La précision du petit modèle (TextCnn & Bilstm) se situe entre 0,80 et 0,81
La précision du modèle Bert se situe entre 0,90 et 0,91
La précision du modèle de distillation se situe entre 0,87 et 0,88
Les résultats expérimentaux sont fondamentalement cohérents avec les conclusions du document et sont conformes aux attentes
D'autres schémas de distillation plus efficaces seront essayés plus tard
Tout d'abord, Finetune Bert
python ptbert.pyPuis distiller les connaissances de Bert dans le petit modèle
Vous devez d'abord décompresser data/cache/word2vec.gz
Alors
python distill.py L'ajustement use_aug et les paramètres suivants dans le fichier peuvent utiliser deux des méthodes d'amélioration des données mentionnées dans l'article (masquage, échantillonnage N-gram)