Скачать speech adapters - Скачать исходный код speech adapters

speech adapters

AI Исходный код

1.0.0

Скачать

Оценка параметров, эффективных для переноса

Бумага

Мотивация

Точная настройка широко используется в качестве алгоритма по умолчанию для переноса обучения из предварительно обученных моделей. Однако неэффективность параметров может возникнуть, когда во время переноса обучения все параметры большой предварительно обученной модели должны быть обновлены для отдельных нижестоящих задач. По мере роста количества параметров, тонкая настройка подвержена переоснащению и катастрофическим забываниям. Кроме того, полная точная настройка может стать чрезмерно дорогой, когда модель используется для многих задач. Для смягчения этой проблемы были предложены алгоритмы обучения по переносу, такие как адаптеры и настройка префикса, были предложены в качестве способа ввести несколько обучаемых параметров, которые можно подключить к большим предварительно обученным языковым моделям, таким как Берт и Хуберт. В этой статье мы вводим контрольный показатель оценки речи (конечно) для параметров-эффективного обучения для различных задач обработки речи. Кроме того, мы представляем новый адаптер, Convadapter, на основе 1D свертки. Мы показываем, что Convadapter превосходит стандартные адаптеры, показывая сопоставимую производительность против настройки префикса и LORA, и только 0,94% обучаемых параметров по некоторым задачам в конечном. Кроме того, мы исследуем эффективность эффективного переносного обучения параметров для задачи синтеза речи, такой как текст в речь (TTS).

Установка

Настройка сред

 conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch

Установите другие зависимости

 pip install - r requirements . txt

Поддерживаемые задачи и наборы данных

Как бежать

Во -первых, нам нужно указать наборы данных и аргументы. Давайте использовать «ESD» в качестве набора данных, «Finetune» в качестве метода настройки в задаче «распознавание эмоций речи» в качестве примера:

 CUDA_VISIBLE_DEVICES = 2 , 3 python train . py 
		- - dataset "esd" 
		- - data_dir "/data/path/ESD" 
		- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3' 
		- - do_train True 
		- - do_eval True 
		- - do_predict False 
		- - evaluation_strategy "steps" 
		- - save_strategy "steps" 
		- - save_steps 500 
		- - eval_steps 25 
		- - learning_rate 2e-3 
		- - feat_adapter_name "conv_adapter" 
		- - trans_adapter_name "adapterblock" 
		- - output_adapter False 
		- - mh_adapter False 
		- - prefix_tuning False 
		- - lora_adapter False 
		- - feat_enc_adapter False 
		- - fine_tune True 
		- - per_device_train_batch_size 64 
		- - gradient_accumulation_steps 4 
		- - per_device_eval_batch_size 64 
		- - num_train_epochs 100 
		- - warmup_ratio 0.1 
		- - logging_steps 20 
		- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log' 
		- - load_best_model_at_end True 
		- - metric_for_best_model "f1"

Параметры

Набор данных: укажите набор данных, такой как «ESD», «Fleurs», «fluent_commands» и т. Д.
DATA_DIR: PATH в файл набора данных, например, "../data/path/esd"
output_dir: путь к контрольным точкам и журналам, например, '../data/path/output_earlystop_ser_esd_finetune_2e3'
do_train: Верно, если хотите тренироваться
do_eval: Верно, если хотите оценить
do_predict: Верно, если хотите сделать вывод
evaluation_strategy: это может быть установлено в соответствии с официальной обстановкой Huggingface
save_strategy: это может быть установлено в соответствии с официальной настройкой Huggingface
save_steps: он может быть установлен в соответствии с официальной настройкой Huggingface
eval_steps: он может быть установлен в соответствии с официальной настройкой Huggingface
Learning_Rate: он может быть установлен в соответствии с официальной обстановкой HuggingFace
feat_adapter_name: тип адаптера, добавленный в Encoder функций, но не применяется к этой статье, может быть пропущен
trans_adapter_name: тип адаптера, добавленный в слое трансформатора, такой как «адаптерблок» для конвадаптера и «узкого места» для адаптера узкого места
output_adapter: true, если добавлено после подачи средств от каждого слоя трансформатора, только контроль Convadapter и Atlence Adapter
MH_ADAPTER: Верно, если добавлено после многоугольного внимания каждого слоя трансформатора, только контроль Convadapter и Aboutleneck Adapter
prefix_tuning: true, если добавлен префикс-настройка
lora_adapter: true, если Lora добавлена
feat_enc_adapter: true, если адаптер добавлен в функции Encoder of Wav2Vec2
fine_tune: true, если нужна только точная настройка
per_device_train_batch_size: он может быть установлен в соответствии с официальной настройкой huggingface
gradient_accumulation_steps: он может быть установлен в соответствии с официальной настройкой Huggingface
per_device_eval_batch_size: он может быть установлен в соответствии с официальной настройкой huggingface
num_train_epochs: он может быть установлен в соответствии с официальной настройкой huggingface
Deampup_Ratio: это может быть установлено в соответствии с официальной обстановкой HuggingFace
logging_steps: он может быть установлен в соответствии с официальной настройкой Huggingface
logging_dir: он может быть установлен в соответствии с официальной настройкой Huggingface
LOAD_BEST_MODEL_AT_END: он может быть установлен в соответствии с официальной настройкой HuggingFace
metric_for_best_model: он может быть установлен в соответствии с официальной настройкой Huggingface

Классификация эмоций

Давайте также объясним пять методов обучения модели. Например, запустите новую задачу классификации эмоций, мы установим соответствующий параметр, как ниже:

 ## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True

Мы также разместили примеры в соответствии с каждым методом обучения в «Emotion_cls.sh», используя следующую команду для запуска новой задачи классификации эмоций:

 bash emotion_cls . sh

Тенсорборд

Чтобы дополнительно контролировать конвергенцию обучения модели, мы можем просмотреть файл журнала через Tensorboard:

 tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all

Цитирование

@ inproceedings { li2023evaluating ,
  title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
  author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
  booktitle = { ICASSP },
  year = { 2023 }
}