Téléchargement speech adapters - speech adapters Télécharger le code source

speech adapters

Code Source AI

1.0.0

Télécharger

Évaluation des approches d'apprentissage en transfert économe en paramètres sur une référence sûre pour la compréhension de la parole

Papier

Motivation

Le réglage fin est largement utilisé comme algorithme par défaut pour l'apprentissage du transfert à partir de modèles pré-formés. L'inefficacité des paramètres peut cependant survenir lorsque, pendant l'apprentissage du transfert, tous les paramètres d'un grand modèle pré-formé doivent être mis à jour pour les tâches individuelles en aval. Au fur et à mesure que le nombre de paramètres augmente, le réglage fin est sujet à un sur-ajustement et à l'oubli catastrophique. De plus, le réglage fin complet peut devenir prohibitif lorsque le modèle est utilisé pour de nombreuses tâches. Pour atténuer ce problème, des algorithmes d'apprentissage transfert par les paramètres, tels que les adaptateurs et le réglage du préfixe, ont été proposés comme un moyen d'introduire quelques paramètres formables qui peuvent être branchés sur de grands modèles de langage pré-formés tels que Bert et Hubert. Dans cet article, nous introduisons la référence d'évaluation de la compréhension de la parole (sûre) pour l'apprentissage économe en paramètres pour diverses tâches de traitement de la parole. De plus, nous introduisons un nouvel adaptateur, Convadapter, basé sur la convolution 1D. Nous montrons que Convadapter surpasse les adaptateurs standard tout en montrant des performances comparables avec le réglage du préfixe et LORA avec seulement 0,94% des paramètres formables sur certaines des tâches. Nous explorons davantage l'efficacité de l'apprentissage du transfert efficace par les paramètres pour la tâche de synthèse de la parole tels que le texte-parole (TTS).

Installation

Configuration des environnements

 conda create - - name speechprompt python == 3.8 . 5
conda activate speechprompt
conda install pytorch == 1.10 . 0 torchvision == 0.11 . 0 torchaudio == 0.10 . 0 - c pytorch

Installer d'autres dépendances

 pip install - r requirements . txt

Tâches et ensembles de données pris en charge

Comment courir

Tout d'abord, nous devons spécifier des ensembles de données et des arguments. Utilisons "ESD" comme ensemble de données, "FineTune" comme méthode de réglage dans la tâche "Reconnaissance des émotions de la parole" comme exemple:

 CUDA_VISIBLE_DEVICES = 2 , 3 python train . py 
		- - dataset "esd" 
		- - data_dir "/data/path/ESD" 
		- - output_dir '/data/path/output_earlystop_ser_esd_finetune_2e3' 
		- - do_train True 
		- - do_eval True 
		- - do_predict False 
		- - evaluation_strategy "steps" 
		- - save_strategy "steps" 
		- - save_steps 500 
		- - eval_steps 25 
		- - learning_rate 2e-3 
		- - feat_adapter_name "conv_adapter" 
		- - trans_adapter_name "adapterblock" 
		- - output_adapter False 
		- - mh_adapter False 
		- - prefix_tuning False 
		- - lora_adapter False 
		- - feat_enc_adapter False 
		- - fine_tune True 
		- - per_device_train_batch_size 64 
		- - gradient_accumulation_steps 4 
		- - per_device_eval_batch_size 64 
		- - num_train_epochs 100 
		- - warmup_ratio 0.1 
		- - logging_steps 20 
		- - logging_dir '/data/path/output_earlystop_ser_esd_finetune_2e3/log' 
		- - load_best_model_at_end True 
		- - metric_for_best_model "f1"

Paramètres

Ensemble de données: spécifiez l'ensemble de données, tel que "ESD", "fleurs", "fluent_commands", etc.
data_dir: chemin vers le fichier de jeu de données, par exemple, "../data/path/esd"
output_dir: chemin vers les points de contrôle et les journaux, par exemple, '../data/path/output_earlystop_ser_esd_finetune_2e3'
do_train: vrai si vous voulez s'entraîner
do_eval: vrai si vous voulez évaluer
do_predict: vrai si vous voulez inférer
Evaluation_strategy: il peut être défini en fonction du paramètre officiel de HuggingFace
Save_strategy: il peut être défini en fonction du paramètre officiel de HuggingFace
Save_steps: il peut être défini en fonction du paramètre officiel de HuggingFace
EVAL_STEPS: il peut être défini en fonction du paramètre officiel de HuggingFace
Learning_rate: il peut être défini en fonction du paramètre officiel de HuggingFace
feat_adapter_name: le type d'adaptateur ajouté dans le codeur des fonctionnalités, mais non appliqué à cet article, peut être ignoré
trans_adapter_name: le type d'adaptateur ajouté dans la couche de transformateur, tel que "adapterblock" pour convadapter et "goulot d'étranglement" pour l'adaptateur goulot d'étranglement
output_adapter: true si ajouté après la transmission de chaque couche de transformateur, ne contrôlez que Convadapter et Adaptateur goulot d'étranglement
MH_ADAPTER: TRUE If Ajout après l'attention multi-tête de chaque couche de transformateur, ne contrôlez que l'adaptateur Convadapter et Prise goulot d'étranglement
prefix_tuning: true si le préfixe tun est ajouté
lora_adapter: vrai si lora est ajouté
feat_enc_adapter: true if adapter est ajouter en fonctionnalités Encodeur de wav2vec2
fine_tune: vrai si vous avez seulement besoin d'un réglage fin
per_device_train_batch_size: il peut être défini en fonction du paramètre officiel de HuggingFace
gradient_accumulation_steps: il peut être défini en fonction du paramètre officiel de HuggingFace
per_device_eval_batch_size: il peut être défini en fonction du paramètre officiel de HuggingFace
NUM_TRAIN_EPOCHS: Il peut être défini en fonction du paramètre officiel de HuggingFace
Warmup_ratio: il peut être défini en fonction du réglage officiel de HuggingFace
Logging_steps: il peut être défini en fonction du paramètre officiel de HuggingFace
Logging_dir: il peut être défini en fonction du paramètre officiel de HuggingFace
load_best_model_at_end: il peut être défini en fonction du paramètre officiel de HuggingFace
METRIC_FOR_BEST_MODEL: Il peut être défini en fonction du paramètre officiel de HuggingFace

Classification des émotions

Expliquez en outre les cinq méthodes de formation du modèle. Par exemple, démarrez une nouvelle tâche de classification des émotions, nous définirons le paramètre correspondant comme ci-dessous:

 ## finetune
- - fine_tune True
## bottleneck
- - trans_adapter_name "bottleneck"
- - output_adapter True
## prefix-tuning
- - prefix_tuning True
## lora
- - lora_adapter True
## ConvAdapter
- - trans_adapter_name "adapterblock"
- - output_adapter True

Nous avons également placé des exemples en fonction de chaque méthode de formation dans "emotion_cls.sh", en utilisant la commande suivante pour démarrer une nouvelle tâche de classification des émotions:

 bash emotion_cls . sh

Tensorboard

Afin de superviser davantage la convergence de la formation des modèles, nous pouvons afficher le fichier journal via Tensorboard:

 tensorboard - - logdir = / data / path / output_earlystop_asr_fleurs_lora_2e3 / log - - bind_all

Citation

@ inproceedings { li2023evaluating ,
  title = { Evaluating Parameter - Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding },
  author = { Li , Yingting and Mehrish , Ambuj and Zhao , Shuai and Bhardwaj , Rishabh and Zadeh , Amir and Majumder , Navonil and Mihalcea , Rada and Poria , Soujanya },
  booktitle = { ICASSP },
  year = { 2023 }
}