Unduh speech adapters - Unduh Kode Sumber speech adapters

speech adapters

Kode Sumber AI

1.0.0

Unduh

Mengevaluasi Pendekatan Pembelajaran Transfer Parameter-Efisien pada Benchmark untuk Pemahaman Pidato

Kertas

Motivasi

Fine-tuning banyak digunakan sebagai algoritma default untuk pembelajaran transfer dari model yang sudah terlatih. Namun, inefisiensi parameter dapat muncul ketika, selama pembelajaran transfer, semua parameter dari model pra-terlatih besar perlu diperbarui untuk tugas hilir individu. Ketika jumlah parameter tumbuh, penyempurnaan rentan terhadap overfitting dan melupakan bencana. Selain itu, penyempurnaan penuh dapat menjadi sangat mahal ketika model digunakan untuk banyak tugas. Untuk mengurangi masalah ini, algoritma pembelajaran transfer yang efisien parameter, seperti adaptor dan penyetelan awalan, telah diusulkan sebagai cara untuk memperkenalkan beberapa parameter yang dapat dilatih yang dapat dicolokkan ke model bahasa pra-terlatih besar seperti Bert, dan Hubert. Dalam makalah ini, kami memperkenalkan tolok ukur evaluasi pemahaman wicara (tentu) untuk pembelajaran yang efisien parameter untuk berbagai tugas pemrosesan bicara. Selain itu, kami memperkenalkan adaptor baru, Convadapter, berdasarkan konvolusi 1D. Kami menunjukkan bahwa ConvAdapter mengungguli adapter standar sambil menunjukkan kinerja yang sebanding dengan tuning awalan dan LORA dengan hanya 0,94% parameter yang dapat dilatih pada beberapa tugas dengan pasti. Kami selanjutnya mengeksplorasi efektivitas pembelajaran transfer efisien parameter untuk tugas sintesis bicara seperti teks-ke-pidato (TTS).

gambar

Instalasi

Mengatur lingkungan

 conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch

Instal dependensi lainnya

 pip install - r requirements . txt

Tugas dan set data yang didukung

gambar

Bagaimana menjalankan

Pertama, kita perlu menentukan set data dan argumen. Mari kita gunakan "ESD" sebagai dataset, "Finetune" sebagai metode tuning dalam tugas "pengenalan emosi wicara" sebagai contoh:

 CUDA_VISIBLE_DEVICES = 2 , 3 python train . py 
		- - dataset "esd" 
		- - data_dir "/data/path/ESD" 
		- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3' 
		- - do_train True 
		- - do_eval True 
		- - do_predict False 
		- - evaluation_strategy "steps" 
		- - save_strategy "steps" 
		- - save_steps 500 
		- - eval_steps 25 
		- - learning_rate 2e-3 
		- - feat_adapter_name "conv_adapter" 
		- - trans_adapter_name "adapterblock" 
		- - output_adapter False 
		- - mh_adapter False 
		- - prefix_tuning False 
		- - lora_adapter False 
		- - feat_enc_adapter False 
		- - fine_tune True 
		- - per_device_train_batch_size 64 
		- - gradient_accumulation_steps 4 
		- - per_device_eval_batch_size 64 
		- - num_train_epochs 100 
		- - warmup_ratio 0.1 
		- - logging_steps 20 
		- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log' 
		- - load_best_model_at_end True 
		- - metric_for_best_model "f1"

Parameter

Dataset: Tentukan dataset, seperti "ESD", "Fleurs", "FLUENT_COMMANDS", dll.
data_dir: path ke file dataset, misalnya, "../data/path/esd"
output_dir: jalur ke pos pemeriksaan dan log, misalnya, '../data/path/output_earlystop_ser_esd_finetune_2e3'
do_train: true jika ingin berlatih
do_eval: benar jika ingin mengevaluasi
do_predict: benar jika ingin inferensi
evaluasi_strategy: dapat ditetapkan sesuai dengan pengaturan resmi Huggingface
save_strategy: dapat diatur sesuai dengan pengaturan resmi Huggingface
save_steps: itu dapat diatur sesuai dengan pengaturan resmi Huggingface
Eval_steps: Ini dapat diatur sesuai dengan pengaturan resmi Huggingface
learning_rate: Ini dapat ditetapkan sesuai dengan pengaturan resmi Huggingface
feat_Adapter_name: Tipe adaptor yang ditambahkan dalam fitur encoder, tetapi tidak diterapkan pada artikel ini, dapat dilewati
Trans_Adapter_name: Tipe adaptor ditambahkan di lapisan transformator, seperti "Adapterblock" untuk Convadapter dan "Bottleneck" untuk adaptor bottleneck
Output_Adapter: Benar jika ditambahkan setelah feedforward dari setiap lapisan transformator, hanya kontrol konvadapter dan adaptor bottleneck
MH_ADAPTER: Benar jika ditambahkan setelah perhatian multi -kepala dari setiap lapisan transformator, hanya kontrol konvadapter dan adaptor bottleneck
prefix_tuning: true jika awalan tuning ditambahkan
lora_adapter: true jika lora ditambahkan
feat_enc_adapter: true jika adaptor menambahkan fitur encoder dari wav2vec2
fine_tune: true jika hanya perlu fine tuning
per_device_train_batch_size: itu dapat diatur sesuai dengan pengaturan resmi Huggingface
gradient_accumulation_steps: dapat ditetapkan sesuai dengan pengaturan resmi Huggingface
per_device_eval_batch_size: dapat diatur sesuai dengan pengaturan resmi Huggingface
num_train_epochs: dapat diatur sesuai dengan pengaturan resmi Huggingface
Warmup_ratio: Ini dapat diatur sesuai dengan pengaturan resmi Huggingface
LOGGING_STEPS: Ini dapat diatur sesuai dengan pengaturan resmi Huggingface
LOGGING_DIR: Ini dapat diatur sesuai dengan pengaturan resmi Huggingface
load_best_model_at_end: itu dapat diatur sesuai dengan pengaturan resmi HuggingFace
metric_for_best_model: dapat diatur sesuai dengan pengaturan resmi Huggingface

Klasifikasi Emosi

Mari kita jelaskan lebih lanjut lima metode pelatihan model. Misalnya, mulailah tugas klasifikasi emosi baru, kami akan mengatur parameter yang sesuai seperti di bawah ini:

 ## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True

Kami juga memberikan contoh sesuai dengan setiap metode pelatihan di "Emotion_Cls.sh", menggunakan perintah berikut untuk memulai tugas klasifikasi emosi baru:

 bash emotion_cls . sh

Tensorboard

Untuk lebih mengawasi konvergensi pelatihan model, kami dapat melihat file log melalui Tensorboard:

 tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all

Kutipan

@ inproceedings { li2023evaluating ,
  title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
  author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
  booktitle = { ICASSP },
  year = { 2023 }
}