speech adapters下載 - speech adapters源代碼下載

speech adapters

Ai源碼

1.0.0

下載

評估參數有效的轉移學習方法在肯定的基准上進行語音理解

紙

動機

微調被廣泛用作從預訓練模型轉移學習的默認算法。但是，當在傳輸學習過程中，需要更新大型預訓練模型的所有參數，以便為單個下游任務更新大型預訓練模型時，可能會出現參數低效率。隨著參數數量的增加，微調容易擬合和災難性遺忘。此外，當模型用於許多任務時，全面的微調可能會變得非常昂貴。為了減輕此問題，已經提出了參數有效的傳輸學習算法，例如適配器和前綴調整，作為一種引入一些可訓練的參數，可以插入大型預訓練的語言模型，例如Bert和Hubert。在本文中，我們介紹了語音理解評估（肯定）基準，用於用於各種語音處理任務的參數效率學習。此外，我們根據1D卷積引入了一個新的適配器Resuredapter。我們表明，卷積器的表現優於標準適配器，同時表現出與前綴調整和洛拉的可比性能，而在某些任務上，只有0.94％的可訓練參數的0.94％。我們進一步探討了參數有效傳輸學習對於語音綜合任務（例如文本到語音（TTS））的有效性。

安裝

設置環境

 conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch

安裝其他依賴關係

 pip install - r requirements . txt

支持的任務和數據集

如何運行

首先，我們需要指定數據集和參數。讓我們將“ ESD”用作數據集，“ Finetune”作為“語音情感識別”任務中的調整方法作為一個例子：

 CUDA_VISIBLE_DEVICES = 2 , 3 python train . py 
		- - dataset "esd" 
		- - data_dir "/data/path/ESD" 
		- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3' 
		- - do_train True 
		- - do_eval True 
		- - do_predict False 
		- - evaluation_strategy "steps" 
		- - save_strategy "steps" 
		- - save_steps 500 
		- - eval_steps 25 
		- - learning_rate 2e-3 
		- - feat_adapter_name "conv_adapter" 
		- - trans_adapter_name "adapterblock" 
		- - output_adapter False 
		- - mh_adapter False 
		- - prefix_tuning False 
		- - lora_adapter False 
		- - feat_enc_adapter False 
		- - fine_tune True 
		- - per_device_train_batch_size 64 
		- - gradient_accumulation_steps 4 
		- - per_device_eval_batch_size 64 
		- - num_train_epochs 100 
		- - warmup_ratio 0.1 
		- - logging_steps 20 
		- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log' 
		- - load_best_model_at_end True 
		- - metric_for_best_model "f1"

參數

數據集：指定數據集，例如“ ESD”，“ Fleurs”，“ fluent_commands”，等。
data_dir：數據集文件的路徑，例如“ ../data/path/esd”
output_dir：檢查點和日誌的路徑，例如'../data/path/output_earlystop_ser_esd_esd_finetune_2e3'
do_train：是真的，如果想訓練
do_eval：是真的，如果要評估
do_predict：如果要推斷，則是正確的
evaluation_strategy：可以根據擁抱面的官方設置設置
save_strategy：可以根據擁抱面的官方設置設置
save_steps：可以根據擁抱面的官方設置設置
eval_steps：可以根據擁抱面的官方設置設置
Learning_rate：可以根據擁抱面的官方設置設置
feat_adapter_name：在功能編碼器中添加但不應用於本文中的適配器類型，可以跳過
trans_adapter_name：在變壓器層中添加的適配器類型，例如，用於瓶頸適配器的“ apapterblock”和“瓶頸”和“瓶頸”
output_Adapter：tru
MH_ADAPTER：如果在每個變壓器層的多頭注意之後添加，則僅添加，僅控製卷軸和瓶頸適配器
prefix_tuning：true如果添加了前綴調整
lora_adapter：thy如果添加了洛拉
feat_enc_adapter：true如果添加適配器在wav2vec2的功能編碼器中
fine_tune：是的，如果只需要微調
per_device_train_batch_size：可以根據huggingface的官方設置設置它
gradient_accumulation_steps：可以根據擁抱面的官方設置設置
per_device_eval_batch_size：可以根據擁抱面的官方設置設置它
num_train_epochs：可以根據擁抱面的官方設置設置
熱身_ratio：可以根據擁抱面的官方設置設置
logging_steps：可以根據擁抱面的官方設置設置
logging_dir：可以根據擁抱面的官方設置設置
LOAD_BEST_MODEL_AT_END：可以根據擁抱面的官方設置設置它
metric_for_best_model：可以根據huggingface的官方設置進行設置

情緒分類

讓我們進一步解釋模型的五種訓練方法。例如，啟動新的情感分類任務，我們將設置相應的參數，如下：

 ## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True

我們還根據“ emotion_cls.sh”中的每種培訓方法進行了示例，使用以下命令開始新的情感分類任務：

 bash emotion_cls . sh

張板

為了進一步監督模型培訓的融合，我們可以通過張量板查看日誌文件：

 tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all

引用

@ inproceedings { li2023evaluating ,
  title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
  author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
  booktitle = { ICASSP },
  year = { 2023 }
}