speech adapters 다운로드 - speech adapters 소스 코드 다운로드

speech adapters

AI 소스 코드

1.0.0

다운로드

음성 이해를위한 확실한 벤치 마크에서 매개 변수 효율적인 전송 학습 접근법 평가

종이

동기 부여

미세 조정은 미리 훈련 된 모델에서 전송 학습을위한 기본 알고리즘으로 널리 사용됩니다. 그러나 전송 학습 중에 대규모 미리 훈련 된 모델의 모든 매개 변수를 개별 다운 스트림 작업에 대해 업데이트해야 할 때 매개 변수 비 효율성이 발생할 수 있습니다. 매개 변수의 수가 증가함에 따라 미세 조정은 과적으로 적합하고 치명적인 잊어 버리기 쉽습니다. 또한 모델이 많은 작업에 사용될 때 완전 미세 조정이 엄청나게 비싸 질 수 있습니다. 이 문제를 완화하기 위해 어댑터 및 접두사 튜닝과 같은 매개 변수 효율적인 전송 학습 알고리즘이 Bert 및 Hubert와 같은 대규모 미리 훈련 된 언어 모델에 연결할 수있는 몇 가지 훈련 가능한 매개 변수를 도입하는 방법으로 제안되었습니다. 이 논문에서는 다양한 음성 처리 작업에 대한 매개 변수 효율적인 학습을위한 Speech Inderning Evaluation (Sure) 벤치 마크를 소개합니다. 또한 1D 컨볼 루션을 기반으로 새로운 어댑터 인 Convadapter를 소개합니다. 우리는 Convadapter가 표준 어댑터보다 우수한 것으로 나타 났으며 Prefix 튜닝 및 LORA에 대해 비슷한 성능을 보여줍니다. 우리는 TTS (Text-To-Steece)와 같은 음성 합성 작업에 대한 매개 변수 효율적인 전송 학습의 효과를 더 탐구합니다.

설치

환경을 설정합니다

 conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch

다른 종속성을 설치하십시오

 pip install - r requirements . txt

지원되는 작업 및 데이터 세트

달리는 방법

먼저 데이터 세트 및 인수를 지정해야합니다. "ESD"를 데이터 세트로 사용하여 "Finetune"을 "음성 감정 인식"작업의 튜닝 방법으로 사용하겠습니다.

 CUDA_VISIBLE_DEVICES = 2 , 3 python train . py 
		- - dataset "esd" 
		- - data_dir "/data/path/ESD" 
		- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3' 
		- - do_train True 
		- - do_eval True 
		- - do_predict False 
		- - evaluation_strategy "steps" 
		- - save_strategy "steps" 
		- - save_steps 500 
		- - eval_steps 25 
		- - learning_rate 2e-3 
		- - feat_adapter_name "conv_adapter" 
		- - trans_adapter_name "adapterblock" 
		- - output_adapter False 
		- - mh_adapter False 
		- - prefix_tuning False 
		- - lora_adapter False 
		- - feat_enc_adapter False 
		- - fine_tune True 
		- - per_device_train_batch_size 64 
		- - gradient_accumulation_steps 4 
		- - per_device_eval_batch_size 64 
		- - num_train_epochs 100 
		- - warmup_ratio 0.1 
		- - logging_steps 20 
		- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log' 
		- - load_best_model_at_end True 
		- - metric_for_best_model "f1"

매개 변수

데이터 세트 : "esd", "fleurs", "fluent_commands"등과 같은 데이터 세트를 지정하십시오.
data_dir : 예를 들어 "../data/path/esd"와 같은 데이터 세트 파일로가는 경로
output_dir : 예를 들어 '../data/path/output_earlystop_ser_esd_finetune_2e3'과 같은 체크 포인트 및 로그로가는 경로
do_train : 훈련하고 싶다면 진실
do_eval : 평가하고 싶은 경우
do_predict : 추론을 원한다면 참
Evaluation_strategy : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
save_strategy : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
save_steps : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
Eval_steps : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
Learning_rate : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
feat_adapter_name : 기능 인코더에 추가되었지만이 기사에 적용되지 않은 어댑터 유형은 건너 뛸 수 있습니다.
Trans_Adapter_Name : 변압기 레이어에 추가 된 어댑터 유형 (예 : Convadapter의 AdapterBlock) 및 병목 현상 어댑터의 "병목"
output_adapter : 모든 변압기 층의 피드 포워드 후 추가 된 경우 True Convadapter 및 병목 현상 어댑터 만 제어하십시오.
MH_ADAPTER : 모든 변압기 층의 멀티 헤드주의 후에 추가 된 경우 True Convadapter 및 병목 현상 어댑터 만 제어하십시오.
prefix_tuning : 접두사 튜닝이 추가되면 true
LORA_ADAPTER : LORA가 추가되면 True
feat_enc_adapter : 어댑터가 추가 된 경우 wav2vec2의 기능 인코더를 추가합니다.
Fine_tune : 미세 조정 만 있으면 사실입니다
PER_DEVICE_TRAIN_BATCH_SIZE : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
gradient_accumulation_steps : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
PER_DEVICE_EVAL_BATCH_SIZE : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
num_train_epochs : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
Warmup_ratio : Huggingface의 공식 설정에 따라 설정할 수 있습니다.
logging_steps : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
logging_dir : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.
load_best_model_at_end : huggingface의 공식 설정에 따라 설정할 수 있습니다.
metric_for_best_model : 포옹 페이스의 공식 설정에 따라 설정할 수 있습니다.

감정 분류

모델의 5 가지 훈련 방법을 설명해 봅시다. 예를 들어, 새로운 감정 분류 작업을 시작하면 다음과 같은 해당 매개 변수를 설정합니다.

 ## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True

또한 새로운 감정 분류 작업을 시작하기 위해 다음 명령을 사용하여 "감정 _cls.sh"의 각 교육 방법에 따라 예제를 배치했습니다.

 bash emotion_cls . sh

텐서 보드

모델 교육의 수렴을 추가로 감독하기 위해 Tensorboard를 통해 로그 파일을 볼 수 있습니다.

 tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all

소환

@ inproceedings { li2023evaluating ,
  title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
  author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
  booktitle = { ICASSP },
  year = { 2023 }
}