Artigo de referência "Conhecimento específico da tarefa de destilação de Bert em redes neurais simples"
Os experimentos foram realizados com base no texto e no bilstm (GRU) usando Keras e Pytorch, respectivamente.
Os dados experimentais são divididos em 1 (Treinamento de tags): 8 (sem treinamento de etiquetas): 1 (teste)
Os resultados preliminares do conjunto de dados da Emotion 2 Classification são os seguintes:
A precisão do modelo pequeno (textcnn & bilstm) está entre 0,80 e 0,81
A precisão do modelo Bert está entre 0,90 e 0,91
A precisão do modelo de destilação está entre 0,87 e 0,88
Os resultados experimentais são basicamente consistentes com as conclusões do artigo e são consistentes com as expectativas
Outros esquemas de destilação mais eficazes serão julgados mais tarde
Primeiro de tudo, Finetune Bert
python ptbert.pyEntão destila o conhecimento de Bert no pequeno modelo
Você precisa descomprimir data/cache/word2vec.gz primeiro
Então
python distill.py Ajustar use_aug e os seguintes parâmetros no arquivo podem usar dois dos métodos de aprimoramento de dados mencionados no artigo (mascarar, amostragem n-gramas)