Documento de referencia "Distillando el conocimiento específico de la tarea de Bert en redes neuronales simples"
Los experimentos se realizaron en base a TextCnn y BilstM (Gru) usando keras y pytorch respectivamente.
Los datos experimentales se dividen en 1 (entrenamiento de etiqueta): 8 (sin entrenamiento de etiqueta): 1 (prueba)
Los resultados preliminares en el conjunto de datos de la ropa de clasificación de Emotion 2 son los siguientes:
La precisión del modelo pequeño (TextCnn & Bilstm) está entre 0.80 y 0.81
La precisión del modelo BERT está entre 0.90 y 0.91
La precisión del modelo de destilación está entre 0.87 y 0.88
Los resultados experimentales son básicamente consistentes con las conclusiones del artículo y son consistentes con las expectativas
Más tarde se probarán otros esquemas de destilación más efectivos.
En primer lugar, Finetune Bert
python ptbert.pyEntonces DISTIL BERT EL CONOCIMIENTO EN EL MODELO PEQUEÑO
Debe descomprimir data/cache/word2vec.gz primero
Entonces
python distill.py Ajustar use_aug y los siguientes parámetros en el archivo pueden usar dos de los métodos de mejora de datos mencionados en el documento (enmascaramiento, muestreo de N-Gram)