Téléchargement Comprehensive E2E TTS - Téléchargement Comprehensive E2E TTS

Comprehensive E2E TTS

Code Source AI

1.0.0

Télécharger

Comprehensive-E2E-TTS - Implémentation de Pytorch

Un texte à la recherche de bout en bout non autorégressif (génération de forme d'onde donnée par le texte), soutenant une famille de modélines de durée non supervisées SOTA. Ce projet se développe avec la communauté de la recherche, visant à réaliser l'ultime E2E-TTS . Toutes les suggestions vers les meilleures TT de bout en bout sont les bienvenues :)

Conception d'architecture

Wavthruvec: représentation de la parole latente comme caractéristiques intermédiaires pour la synthèse de la parole neuronale (Siuzdak et al., 2022)
Jets: Formation conjointement FastSpeech2 et Hifi-Gan pour le texte de bout en bout (Lim et al., 2022)

Encodeur linguistique

FastSpeech 2: Texte de bout en bout rapide et de haute qualité à la parole (Ren et al., 2020)

Upsampleur audio

Hifi ++: un cadre unifié pour la vocodage neuronal, l'extension de la bande passante et l'amélioration de la parole (Andreev et al., 2022)
HIFI-GAN: réseaux adversaires génératifs pour une synthèse de parole efficace et haute fidélité (Kong et al., 2020)

Modélisation de la durée

Modélisation de la durée différenciable pour le texte à la dissection de bout en bout (Nguyen et al., 2022)
Un alignement TTS pour les gouverner tous (Badlani et al., 2021)

Start

L'ensemble de données fait référence aux noms des ensembles de données tels que LJSpeech et VCTK dans les documents suivants.

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

De plus, Dockerfile est fourni pour les utilisateurs Docker .

Inférence

Vous devez télécharger les modèles pré-entraînés (sera partagé bientôt) et les mettre dans output/ckpt/DATASET/ .

Pour un TTS à un seul haut-parleur , courez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Pour un TTS multi-haut-parleurs , exécutez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Le dictionnaire des enceintes savants peut être trouvé sur preprocessed_data/DATASET/speakers.json , et les énoncés générés seront placés en output/result/ .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Pour synthétiser toutes les énoncés dans preprocessed_data/DATASET/val.txt .

Contrôleur

La hauteur / volume / le taux de parole des énoncés synthétisés peut être contrôlé en spécifiant les rapports de pitch / énergie / durée souhaités. Par exemple, on peut augmenter le taux de parole de 20% et diminuer le volume de 20% par

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Ajouter - Speaker_id Speaker_ID pour un TTS multi-haut-parleurs.

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

LJSPEECH: Un ensemble de données anglais à un seul haut-parleur se compose de 13100 clips audio courts d'une conférencière de lecture féminine de 7 livres non-fiction, environ 24 heures au total.
VCTK: Le corpus CSTR VCTK comprend les données de la parole prononcées par 110 anglophones ( TTS multi-ordres ) avec divers accents. Chaque conférencier lit environ 400 phrases, qui ont été sélectionnées dans un journal, le passage de l'arc-en-ciel et un paragraphe d'élicitation utilisé pour les archives d'accent de la parole.

L'ensemble de données TTS mono-identifiant (par exemple, Blizzard Challenge 2013) et l'ensemble de données TTS multi-ordres (par exemple, Libritts) peuvent être ajoutés après LJSpeech et VCTK, respectivement. De plus, votre propre langue et ensemble de données peuvent être adaptés à la suite ici.

Prétraitement

Pour un TTS multi-haut-parleurs avec un intérêt de haut-parleur externe, téléchargez Rescnn Softmax + Triplet Pretraind Model of Philippermy's DeepPeaker pour le haut-parleur incorpore et le localisez dans ./deepspeaker/pretrained_models/ .

Exécuter le script de prétraitement par

 python3 preprocess.py --dataset DATASET

Entraînement

Former votre modèle avec

 python3 train.py --dataset DATASET

Options utiles:

L'entraîneur suivit une formation multi-GPU à nœuds. Pour utiliser des GPU spécifiques, spécifiez CUDA_VISIBLE_DEVICES=<GPU_IDs> au début de la commande ci-dessus.

Tensorboard

Utiliser

 tensorboard --logdir output/log

pour servir Tensorboard sur votre hôte local.

Notes

Deux options d'incorporation pour le paramètre TTS multi-haut-parleurs : Entraînement de haut-parleur à partir de zéro ou utilisant un modèle DeepPeaker de Philippermy pré-formé (comme Styler l'a fait). Vous pouvez le basculer en définissant la configuration (entre 'none' et 'DeepSpeaker' ).
DeepPeaker sur le jeu de données VCTK montre une identification claire parmi les haut-parleurs. La figure suivante montre le tracé T-SNE de l'intégration du haut-parleur extrait.