PortaSpeech Téléchargement - PortaSpeech Code source Télécharger

PortaSpeech

Code Source AI

v0.2.0

Télécharger

PortaspaseEech - Implémentation de Pytorch

Implémentation de Pytorch de PortaspaspEech: Texte-voca-vocation génératif portable et de haute qualité.

Échantillons audio

Des échantillons audio sont disponibles à / démo.

Taille du modèle

Module	Normale	Petit	Normal (papier)	Petit (papier)
Total	24m	7,6 m	21,8 m	6,7 m
Linguistique	3,7 m	1,4 m	-	-
VariationalGenerator	11m	2,8 m	-	-
FlowPostNet	9.3m	3,4 m	-	-

Start

L'ensemble de données fait référence aux noms des ensembles de données tels que LJSpeech dans les documents suivants.

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

De plus, Dockerfile est fourni pour les utilisateurs Docker .

Inférence

Vous devez télécharger les modèles pré-entraînés et les mettre dans output/ckpt/DATASET/ .

Pour un TTS à un seul haut-parleur , courez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Les énoncés générés seront placés en output/result/ .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Pour synthétiser toutes les énoncés dans preprocessed_data/DATASET/val.txt .

Contrôleur

Le taux de parole des énoncés synthétisés peut être contrôlé en spécifiant les rapports de durée souhaités. Par exemple, on peut augmenter le taux de parole de 20 par

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Veuillez noter que la contrôlabilité est originaire de FastSpeech2 et non un intérêt vital de PortaspaspEech.

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

LJSPEECH: Un ensemble de données anglais à un seul haut-parleur se compose de 13100 clips audio courts d'une conférencière de lecture féminine de 7 livres non-fiction, environ 24 heures au total.

Prétraitement

Courir

 python3 prepare_align.py --dataset DATASET

pour certaines préparatifs.

Pour l'alignement forcé, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pré-extractés pour les ensembles de données sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/DATASET/TextGrid/ . Alternativement, vous pouvez exécuter l'aligneur par vous-même.

Après cela, exécutez le script de prétraitement par

 python3 preprocess.py --dataset DATASET

Entraînement

Former votre modèle avec

 python3 train.py --dataset DATASET

Options utiles:

Pour utiliser une précision mixte automatique, appelez l'argument --use_amp à la commande ci-dessus.
L'entraîneur suivit une formation multi-GPU à nœuds. Pour utiliser des GPU spécifiques, spécifiez CUDA_VISIBLE_DEVICES=<GPU_IDs> au début de la commande ci-dessus.

Tensorboard

Utiliser

 tensorboard --logdir output/log

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Modèle normal

Petite perte de modèle

Notes

Pour Vocoder, Hifi-Gan et Melgan sont soutenus.
Pas d'activation de relu et de tempête de variationalGenerator pour éviter la sortie de la purée.
Accélérez la convergence de l'alignement mot-à-phonème dans LinguisenCcoder linguistique en divisant de longs mots en sous-mots et en triant l'ensemble de données par la longueur du cadre de spectrogramme de MEL.
Il existe deux types de perte d'assistance pour améliorer l'alignement des mots à phonème: "CTC" et "DGA". Vous pouvez les basculer comme suit:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": perte d'attention guidée en diagonale (DGA)
- "CTC": perte de classification temporelle connexionniste (CTC) avec algorithme à somme directe
- Si vous définissez "aucun", aucune perte d'assistance ne sera appliquée pendant la formation.
- La comparaison des alignements de trois méthodes ("DGA", "CTC" et "Aucun" de haut en bas):
- Le paramètre par défaut est "DGA". Bien que "CTC" ait l'alignement le plus fort, la qualité de sortie et la précision sont pires que "DGA".
- Mais encore, il y a une place pour l'amélioration de la qualité de sortie. La qualité audio et le traitement (précision) semblent être un compromis.
Sera étendu à un TTS multi-haut-parleurs .