Download Causal Distill - Download de código fonte Causal Distill

Destilação causal para modelos de idiomas (Diito)

Zhengxuan Wu*, Atticus Geiger*, Josh Rozner, Elisa Kreiss, Hanson Lu, Thomas Icard, Christopher Potts, Noah D. Goodman

A implementação é de nossa destilação causal pré -impressão para modelos de idiomas. A abordagem padrão para a destilação treina um modelo de aluno contra dois objetivos: um objetivo específico da tarefa (por exemplo, modelagem de idiomas) e um objetivo de imitação que incentiva os estados ocultos do modelo de aluno a serem semelhantes aos do modelo maior de professores. Neste artigo, mostramos que é benéfico aumentar a destilação com um terceiro objetivo que incentiva o aluno a imitar o processo de computação causal do professor por meio do Treinamento de Intervenção em Intercâmbio (IIT). Nomeamos nosso método O objetivo do treinamento de intercâmbio de destilação (DIITO) .

Descobrimos que o Diito é útil em um ambiente de baixo resistência. O Diito realiza o desempenho com (97%) destilação padrão, mas o treinamento com 97% menos de dados.

Garíamos nossa base de código principal na interface de destilação Huggingface.

Notas de liberação

✅ 12/02/2021 Nosso artigo sobre Treinamento de Intervenção em Intercâmbio (IIT) é lançado! Leia isso para uma definição mais formal do método.
✅ 12/06/2021 lançou a base de código de destilação causal com a pré -impressão.
✅ 12/06/2021 Resultados de avaliação divulgados em minúsculo-bert destilado (3 camadas) com o conjunto de dados Wiki-texto 103M.
✅ 14/01/2022 lançou uma versão mais recente do Diito e seus resultados de avaliação. Você pode visualizar nossa pré -impressão atualizada compartilhada em particular para obter mais detalhes.
✅ 21/02/2022, lançou a base de código para diito-xxs que aplica o idem para destilar modelos específicos de tarefas na PNL, com foco no suporte à destilação do modelo em uma configuração de baixo resistência. Confira o repositório para obter mais informações!
⬜️ Lançado modelo Diito (6 camadas) treinado com a Wikipedia inglesa + Bookcorpus.

Se você tiver algum problema ou ter sugestões, entre em contato comigo a página de problemas ou em [email protected].

Resultados de referência

Aqui estão os resultados nos conjuntos de cola de desenvolvimento:

Modelo	# de tokens de treinamento	Pontuação média	Cola	Mnli	Mrpc	Qnli	Qqp	Rte	SST-2	STS-B
Distilbert (6 camadas) Devlin et al., 2019	3.3b	79.59	51.30	82.10	87,50	89.20	88,50	59.90	91.30	86.90
Distilbert (6 camadas)	0,1b	75.80	40.43	78.95	87.45	84.76	84.96	60.10	89.38	80,40
Diito (6 camadas)	0,1b	77.14	45.17	79.68	88.18	85.83	85.31	60,94	90.32	81.69
Diito (6 camadas)	3.3b	(-)	(-)	(-)	(-)	(-)	(-)	(-)	(-)	(-)

Conteúdo principal

Citação
Requisitos
Conjunto de dados
Destilação
Avaliação

Citação

Se você usar este repositório, cite os dois artigos a seguir: papel para treinamento de intervenção de intercâmbio e papel para o nosso método de destilação.

  @article{geiger-etal-2021-iit,
        title={Inducing Causal Structure for Interpretable Neural Networks}, 
        author={Geiger, Atticus and Wu, Zhengxuan and Lu, Hanson and Rozner, Josh and Kreiss, Elisa and Icard, Thomas and Goodman, Noah D. and Potts, Christopher},
        year={2021},
        eprint={2112.00826},
        archivePrefix={arXiv},
        primaryClass={cs.LG}
  }

  @article{wu-etal-2021-distill,
        title={Causal Distillation for Language Models}, 
        author={Wu, Zhengxuan and Geiger, Atticus and Rozner, Josh and Kreiss, Elisa and Lu, Hanson and Icard, Thomas and Potts, Christopher and Goodman, Noah D.},
        year={2021},
        eprint={2112.02505},
        archivePrefix={arXiv},
        primaryClass={cs.CL}
  }

Requisitos

Python 3.6 ou 3.7 são suportados.
Versão Pytorch: 1.9.0
Versão de transfermers: 4.11.3
Versão dos conjuntos de dados: versão: 1.8.0
Como construímos nossa base de código a partir da interface de destilação Huggingface, revise o DOC para os requisitos.

Conjunto de dados

Após a interface de destilação Huggingface, precisamos pré-processar os conjuntos de dados antes de fazer a destilação. Você pode consultar o repositório deles para obter detalhes. Adaptamos seus scripts de pré-processamento e atualizamos com algumas melhorias. Por exemplo, agora podemos binarizar os conjuntos de dados do hub do conjunto de dados do HuggingFace diretamente.

 # preprocessing from disk
python script/binarized_data.py 
--file_path ../../bert-mid-tuning/data-files/wikitext-15M 
--split train 
--field_name text 
--max_parsing_example 1000 
--tokenizer_type bert 
--tokenizer_name bert-base-uncased 
--dump_file ./data/binarized_text

# preprocessing from huggingface.
python scripts/binarized_data.py 
--dataset_name bookcorpus 
--split train 
--field_name text 
--tokenizer_type bert 
--tokenizer_name bert-base-uncased 
--dump_file bookcorpus-dataset/binarized_text 
--cache_dir ./distill_cache/

python scripts/binarized_data.py 
--dataset_name wikitext 
--split train 
--field_name text 
--tokenizer_type bert 
--tokenizer_name bert-base-uncased 
--dump_file wikitext-dataset/binarized_text 
--cache_dir ./distill_cache/

python scripts/binarized_data.py 
--dataset_name wikitext+bookcorpus 
--split train 
--field_name text 
--tokenizer_type bert 
--tokenizer_name bert-base-uncased 
--dump_file wikitext+bookcorpus-dataset/binarized_text 
--cache_dir ./distill_cache/

# helper scripts to combine two binarized data files
python scripts/data_combinator.py 
--file_path_left ./bookcorpus-dataset/binarized_text.train.bert-base-uncased.pickle 
--file_path_right ./wikitext-dataset/binarized_text.train.bert-base-uncased.pickle 
--split train 
--tokenizer_name bert-base-uncased 
--dump_file wikitext+bookcorpus-dataset/binarized_text

# multiprocessing preprocessor.
python scripts/binarized_data.py 
--dataset_name bookcorpus 
--split train 
--field_name text 
--tokenizer_type bert 
--tokenizer_name bert-base-uncased 
--dump_file bookcorpus-dataset/binarized_text 
--cache_dir ./distill_cache/ 
--fast_process 
--preprocessing_num_workers 48

Depois de preparar os conjuntos de dados, você também precisa gerar contagens de token.

python scripts/token_counts.py 
--data_file data/binarized_text.train.bert-base-uncased.pickle 
--token_counts_dump data/binarized_text.train.token_counts.bert-base-uncased.pickle 
--vocab_size 30522

Destilação

Antes do treinamento, recomendamos que você inicialize seu modelo de aluno com pesos extraídos do modelo do professor.

python scripts/extract_distilbert.py 
--model_type bert 
--model_name bert-base-uncased 
--dump_checkpoint ./distillation_checkpoints/bert-base-uncased_num_layer_3.pth 
--num_layers 3

Agora, aqui está um exemplo para você destilar com nosso objetivo de destilação causal ou sem,

CUDA_VISIBLE_DEVICES=0,1,2,3 python causal_train.py 
--force 
--n_gpu 4 
--log_interval 10 
--student_type distilbert 
--student_config ./training_configs/distilbert-base-uncased-large.json 
--student_pretrained_weights ./distillation_checkpoints/bert-base-uncased_num_layer_6.pth 
--teacher_type bert 
--teacher_name bert-base-uncased 
--neuron_mapping ./training_configs/single_middle_layer_6.nm 
--mlm --alpha_ce 0.25 --alpha_mlm 0.25 --alpha_cos 0.25 --alpha_clm 0.0 --alpha_causal_ce 0.25 --alpha_causal_cos 0.0 
--interchange_prop 0.3 --interchange_max_token -1 --interchange_consecutive_only 
--freeze_pos_embs 
--dump_path ./results/ 
--data_file ./wikitext-dataset/binarized_text.train.bert-base-uncased.pickle 
--token_counts ./wikitext-dataset/binarized_text.train.token_counts.bert-base-uncased.pickle 
--seed 42 
--n_epoch 3 
--gradient_accumulation_steps 6 
--batch_size 40

Observe que você pode simplesmente ativar o objetivo/desativar nosso objetivo de destilação causal definir os argumentos. Por exemplo, recentemente adicionamos esse argumento --alpha_causal_cos para apoiar a perda causal no termo de perda de cosseno. Observe que o tamanho efetivo do lote em nossa configuração está definido como 240.

Avaliação

Depois de obter seus modelos destilados, você precisa ajustá-los e avaliá-los com tarefas a jusante. Nós fornecemos todos os scripts que você precisa executar.

Avaliação MLM

CUDA_VISIBLE_DEVICES=0 python run_mlm.py 
--model_name_or_path ./path_to_your_model/ 
--dataset_dir ../path_to_your_data/ 
--tokenizer_name bert-base-uncased 
--do_eval 
--output_dir /tmp/test-mlm 
--cache_dir ./distill_cache/

Avaliação de cola

CUDA_VISIBLE_DEVICES=0,1,2,3 python run_glue.py 
--model_name_or_path ./path_to_your_model/ 
--tokenizer_name bert-base-uncased 
--task_name sst2 
--do_train 
--do_eval 
--max_seq_length 128 
--per_device_train_batch_size 32 
--learning_rate 2e-5 
--num_train_epochs 3 
--output_dir ./results/ 
--save_total_limit 1 
--cache_dir ./distill_cache/

Avaliação de conll

CUDA_VISIBLE_DEVICES=0,1,2,3 python run_ner.py 
--model_name_or_path ./path_to_your_model/ 
--tokenizer_name bert-base-uncased 
--dataset_name conll2003 
--do_train 
--do_eval 
--output_dir ./ner_results/ 
--save_total_limit 1 
--cache_dir ./distill_cache/

Avaliação do esquadrão

CUDA_VISIBLE_DEVICES=0,1,2,3 python run_qa.py 
--model_name_or_path ./path_to_your_model/ 
--tokenizer_name bert-base-uncased 
--dataset_name squad 
--do_train 
--do_eval 
--per_device_train_batch_size 12 
--learning_rate 3e-5 
--num_train_epochs 2 
--max_seq_length 384 
--doc_stride 128 
--save_total_limit 1 
--output_dir ./qa_results/

Expandir