Téléchargement Cross Speaker Emotion Transfer - Télécharger le code source Cross Speaker Emotion Transfer

Cross Speaker Emotion Transfer

Code Source AI

v0.2.0

Télécharger

Cross-Speaker-Emotion-Transfert - Implémentation de Pytorch

Pytorch Mise en œuvre du transfert d'émotion croisé de ByTedance basé sur la normalisation de la couche de condition du haut-parleur et la formation semi-supervisée en texte vocal.

Échantillons audio

Des échantillons audio sont disponibles à / démo.

Start

L'ensemble de données fait référence aux noms des ensembles de données tels que RAVDESS dans les documents suivants.

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

Installez également Fairseq (document officiel, GitHub) pour utiliser LConvBlock . Veuillez vérifier ici pour résoudre tout problème lors de l'installation. Notez que Dockerfile est fourni pour les utilisateurs Docker , mais vous devez installer manuellement Fairseq.

Inférence

Vous devez télécharger les modèles pré-entraînés et les mettre dans output/ckpt/DATASET/ .

Pour extraire les jetons d'émotion doux d'un audio de référence, exécutez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

Ou, pour utiliser des jetons d'émotion durs d'un identifiant d'émotion, courez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Le dictionnaire des enceintes savants peut être trouvé sur preprocessed_data/DATASET/speakers.json , et les énoncés générés seront placés en output/result/ .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Pour synthétiser toutes les énoncés dans preprocessed_data/DATASET/val.txt . Veuillez noter que seuls les jetons émotionnels durs d'un ID d'émotion donné sont soutenus dans ce mode.

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

RAVDESS: Cette partie de la Ravdess contient 1440 fichiers: 60 essais par acteur x 24 acteurs = 1440. La Ravdess contient 24 acteurs professionnels (12 femmes, 12 hommes), vocalisant deux déclarations à apparition lextiquement dans un accent neutre nord-américain. Les émotions de la parole comprennent des expressions calmes, heureuses, tristes, en colère, effrayantes, surprises et de dégoût. Chaque expression est produite à deux niveaux d'intensité émotionnelle (normale, forte), avec une expression neutre supplémentaire.

Votre propre langue et ensemble de données peuvent être adaptés à la suite ici.

Prétraitement

Pour un TTS multi-haut-parleurs avec un intérêt de haut-parleur externe, téléchargez Rescnn Softmax + Triplet Pretraind Model of Philippermy's DeepPeaker pour le haut-parleur incorpore et le localisez dans ./deepspeaker/pretrained_models/ .
Courir
```
 python3 prepare_align.py --dataset DATASET
```
pour certaines préparatifs.
Pour l'alignement forcé, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pré-extractés pour les ensembles de données sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/DATASET/TextGrid/ . Alternativement, vous pouvez exécuter l'aligneur par vous-même.
Après cela, exécutez le script de prétraitement par
```
 python3 preprocess.py --dataset DATASET
```

Entraînement

Former votre modèle avec

 python3 train.py --dataset DATASET

Options utiles:

Pour utiliser une précision mixte automatique, appelez l'argument --use_amp à la commande ci-dessus.
L'entraîneur suivit une formation multi-GPU à nœuds. Pour utiliser des GPU spécifiques, spécifiez CUDA_VISIBLE_DEVICES=<GPU_IDs> au début de la commande ci-dessus.

Tensorboard

Utiliser

 tensorboard --logdir output/log

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Notes

L'implémentation actuelle n'est pas formée à une manière semi-supervisée en raison de la petite taille de l'ensemble de données. Mais il peut être facilement activé en spécifiant les haut-parleurs cibles et en ne faisant aucune identification d'émotion sans perte de classificateur d'émotion.
Dans Decoder , le bloc 15 x 1 LCONV est utilisé à la place de 17 x 1 en raison de problèmes de mémoire.
Deux options d'incorporation pour le paramètre TTS multi-haut-parleurs : Entraînement de haut-parleur à partir de zéro ou utilisant un modèle DeepPeaker de Philippermy pré-formé (comme Styler l'a fait). Vous pouvez le basculer en définissant la configuration (entre 'none' et 'DeepSpeaker' ).
DeepPeaker sur le jeu de données RAVDESS montre une identification claire parmi les locuteurs. La figure suivante montre le tracé T-SNE de l'intégration du haut-parleur extrait.