TutorKD
1.0.0
该存储库是关于Tutor-KD长论文:辅导可以帮助学生学习更好的学习:通过在EMNLP 2022中发布的Tutor Network来改善BERT的知识蒸馏。在该项目中,我们有兴趣可以减轻传播样本,从而减轻不正确的教师预测和学生的重复学习。



准备数据文件夹中的培训前语料库(Wikipedia和BookCorpus)。使用python preprocess.py 。
--data_path :包含预处理示例(腌制文件)的目录。--raw_data_path :包含原始文本示例的目录。 最后,使用python distillation.py进行蒸馏。
--config :学生模型架构。从:一半,Extreme-12,Ext-6,Ext-2选择模型体系结构--lr :设定学习率。--epochs :设置时期的数量。--batch_size :设置批处理大小,以一次进行进行。--step_batch_size :设置每个步骤更新的批次大小(如果GPU的内存足够,请设置batch_size和step_batch_size相同。--data_path :一个包含预处理示例的目录。--model_save_path :设置保存学生模型的目录有关使用Tutor-KD的帮助或问题,请提交GitHub问题。
有关与Tutor-kd相关的个人通讯,请联系Junho Kim <[email protected]> 。