speech adapters
1.0.0
微調被廣泛用作從預訓練模型轉移學習的默認算法。但是,當在傳輸學習過程中,需要更新大型預訓練模型的所有參數,以便為單個下游任務更新大型預訓練模型時,可能會出現參數低效率。隨著參數數量的增加,微調容易擬合和災難性遺忘。此外,當模型用於許多任務時,全面的微調可能會變得非常昂貴。為了減輕此問題,已經提出了參數有效的傳輸學習算法,例如適配器和前綴調整,作為一種引入一些可訓練的參數,可以插入大型預訓練的語言模型,例如Bert和Hubert。在本文中,我們介紹了語音理解評估(肯定)基準,用於用於各種語音處理任務的參數效率學習。此外,我們根據1D卷積引入了一個新的適配器Resuredapter。我們表明,卷積器的表現優於標準適配器,同時表現出與前綴調整和洛拉的可比性能,而在某些任務上,只有0.94%的可訓練參數的0.94%。我們進一步探討了參數有效傳輸學習對於語音綜合任務(例如文本到語音(TTS))的有效性。


conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch pip install - r requirements . txt 
首先,我們需要指定數據集和參數。讓我們將“ ESD”用作數據集,“ Finetune”作為“語音情感識別”任務中的調整方法作為一個例子:
CUDA_VISIBLE_DEVICES = 2 , 3 python train . py
- - dataset "esd"
- - data_dir "/data/path/ESD"
- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3'
- - do_train True
- - do_eval True
- - do_predict False
- - evaluation_strategy "steps"
- - save_strategy "steps"
- - save_steps 500
- - eval_steps 25
- - learning_rate 2e-3
- - feat_adapter_name "conv_adapter"
- - trans_adapter_name "adapterblock"
- - output_adapter False
- - mh_adapter False
- - prefix_tuning False
- - lora_adapter False
- - feat_enc_adapter False
- - fine_tune True
- - per_device_train_batch_size 64
- - gradient_accumulation_steps 4
- - per_device_eval_batch_size 64
- - num_train_epochs 100
- - warmup_ratio 0.1
- - logging_steps 20
- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log'
- - load_best_model_at_end True
- - metric_for_best_model "f1" 讓我們進一步解釋模型的五種訓練方法。例如,啟動新的情感分類任務,我們將設置相應的參數,如下:
## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True我們還根據“ emotion_cls.sh”中的每種培訓方法進行了示例,使用以下命令開始新的情感分類任務:
bash emotion_cls . sh 為了進一步監督模型培訓的融合,我們可以通過張量板查看日誌文件:
tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all @ inproceedings { li2023evaluating ,
title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
booktitle = { ICASSP },
year = { 2023 }
}注意:如果您發現此存儲庫有用,請引用我們的論文。