Справочная статья "Distilling Trade Latefice Knowlects от BERT в простые нейронные сети"
Эксперименты проводились на основе TextCnn и Bilstm (GRU) с использованием керас и pytorch соответственно.
Экспериментальные данные делятся на 1 (обучение тегов): 8 (без учета метки): 1 (тест)
Предварительные результаты в наборе данных классификационной одежды Emotion 2 следующие:
Точность небольшой модели (TextCnn & Bilstm) составляет от 0,80 до 0,81
Точность модели BERT составляет от 0,90 до 0,91
Точность модели дистилляции составляет от 0,87 до 0,88
Экспериментальные результаты в основном согласуются с выводами статьи и соответствуют ожиданиям
Другие более эффективные схемы дистилляции будут опробованы позже
Прежде всего, Finetune Bert
python ptbert.pyЗатем перебрать знания Берта в небольшую модель
Вам нужно распаковать data/cache/word2vec.gz сначала
Затем
python distill.py Регулировка use_aug и следующие параметры в файле могут использовать два метода улучшения данных, упомянутых в статье (маскировка, отбор проб N-грамма)