bert_distill
1.0.0
참조 용지 "Bert에서 간단한 신경망으로의 증류 작업 별 지식"
실험은 각각 Keras 및 Pytorch를 사용하여 TextCnn 및 BilstM (GRU)을 기반으로 수행되었다.
실험 데이터는 1으로 나뉩니다 (태그 훈련) : 8 (레이블 훈련 없음) : 1 (테스트)
감정 2 분류 의류 데이터 세트의 예비 결과는 다음과 같습니다.
작은 모델 (TextCnn & Bilstm)의 정확도는 0.80에서 0.81 사이입니다.
버트 모델의 정확도는 0.90에서 0.91 사이입니다.
증류 모델의 정확도는 0.87에서 0.88 사이입니다.
실험 결과는 기본적으로 논문의 결론과 일치하며 기대치와 일치합니다.
다른보다 효과적인 증류 체계는 나중에 시도됩니다
우선, Finetune Bert
python ptbert.py그런 다음 Bert의 지식을 작은 모델로 증류하십시오
먼저 data/cache/word2vec.gz 압축해야합니다
그 다음에
python distill.py 파일의 use_aug 와 다음 매개 변수 조정은 용지에 언급 된 두 가지 데이터 향상 방법을 사용할 수 있습니다 (마스킹, N- 그램 샘플링)