DiffGAN TTS Téléchargement - Téléchargement du code source DiffGAN TTS

DiffGAN TTS

Code Source AI

1.0.0

Télécharger

Diffgan-TTS - Implémentation de Pytorch

Pytorch Implémentation de Diffgan-TT

Statut de référentiel

Version naïve de Diffgan-TTS
Mécanisme de diffusion peu profonde active: diffgan-TTS (à deux étapes)

Échantillons audio

Des échantillons audio sont disponibles à / démo.

Start

L'ensemble de données fait référence aux noms des ensembles de données tels que LJSpeech et VCTK dans les documents suivants.

Le modèle fait référence aux types de modèle (choisissez parmi « naïf », « aux », « superficiel »).

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

Inférence

Vous devez télécharger les modèles pré-entraînés et les mettre

output/ckpt/DATASET_naive/ pour le modèle « naïf ».
output/ckpt/DATASET_shallow/ pour le modèle « peu profond ». Veuillez noter que le point de contrôle du modèle « peu profond » contient à la fois des modèles « peu profonds » et « AUX », et ces deux modèles partageront tous les répertoires, sauf les résultats tout au long du processus.

Pour un TTS à un seul haut-parleur , courez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

Pour un TTS multi-haut-parleurs , exécutez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Le dictionnaire des enceintes savants peut être trouvé sur preprocessed_data/DATASET/speakers.json , et les énoncés générés seront placés en output/result/ .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

Pour synthétiser toutes les énoncés dans preprocessed_data/DATASET/val.txt .

Contrôleur

La hauteur / volume / le taux de parole des énoncés synthétisés peut être contrôlé en spécifiant les rapports de pitch / énergie / durée souhaités. Par exemple, on peut augmenter le taux de parole de 20% et diminuer le volume de 20% par

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Veuillez noter que la contrôlabilité provient de FastSpeech2 et non un intérêt vital de Diffgan-TTS.

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

LJSPEECH: Un ensemble de données anglais à un seul haut-parleur se compose de 13100 clips audio courts d'une conférencière de lecture féminine de 7 livres non-fiction, environ 24 heures au total.
VCTK: Le corpus CSTR VCTK comprend les données de la parole prononcées par 110 anglophones ( TTS multi-ordres ) avec divers accents. Chaque conférencier lit environ 400 phrases, qui ont été sélectionnées dans un journal, le passage de l'arc-en-ciel et un paragraphe d'élicitation utilisé pour les archives d'accent de la parole.

Prétraitement

Pour un TTS multi-haut-parleurs avec un intérêt de haut-parleur externe, téléchargez Rescnn Softmax + Triplet Pretraind Model of Philippermy's DeepPeaker pour le haut-parleur incorpore et le localisez dans ./deepspeaker/pretrained_models/ .
Courir
```
 python3 prepare_align.py --dataset DATASET
```
pour certaines préparatifs.
Pour l'alignement forcé, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pré-extractés pour les ensembles de données sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/DATASET/TextGrid/ . Alternativement, vous pouvez exécuter l'aligneur par vous-même.
Après cela, exécutez le script de prétraitement par
```
 python3 preprocess.py --dataset DATASET
```

Entraînement

Vous pouvez former trois types de modèle: « naïf », « aux » et « peu profonds ».

Formation Version naïve (« naïve »):
Former la version naïve avec
```
 python3 train.py --model naive --dataset DATASET
```
Formation Modèle acoustique de base pour la version peu profonde (« Aux »):
Pour entraîner la version peu profonde, nous avons besoin d'un FastSpeech2 pré-formé. La commande ci-dessous vous permettra de former les modules FastSpeech2, y compris le décodeur auxiliaire (MEL).
```
 python3 train.py --model aux --dataset DATASET
```
Formation Version superficielle (« superficielle »):
Pour tirer parti du décodeur FastSpeech2 pré-formé, y compris le décodeur auxiliaire (MEL), vous devez passer --restore_step avec la dernière étape de la formation Auxiliaire FastSpeech2 comme la commande suivante.
```
 python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```
Par exemple, si le dernier point de contrôle est enregistré à 200000 étapes pendant la formation auxiliaire, vous devez définir --restore_step avec 200000 . Ensuite, il chargera et congelera le modèle AUX, puis continuera la formation sous le mécanisme de diffusion peu profond actif.

Tensorboard

Utiliser

 tensorboard --logdir output/log/DATASET

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Diffusion naïve

Diffusion peu profonde

Notes

En plus du décodeur de diffusion, l'adaptateur de variance est également conditionné aux informations du haut-parleur.
La sortie inconditionnelle et conditionnelle du discriminateur de JCU est moyenne pendant chacun du calcul de la perte comme Vocgan l'a fait.
Quelques différences sur les données et le prétraitement par rapport à l'article d'origine:
- Utilisation de VCTK (109 haut-parleurs) au lieu de mandarin chinois de 228 haut-parleurs.
- Après la configuration audio de DiFfSpeech, par exemple, la fréquence d'échantillonnage est de 22050 Hz plutôt que de 24 000 Hz.
- Aussi, suivant l'extraction et la modélisation de la variance de DiffSpeech.
lambda_fm est fixé à une valeur scala car le scalaire à l'échelle dynamiquement calculé comme L_recon / L_FM fait exploser le modèle.
Deux options d'incorporation pour le paramètre TTS multi-haut-parleurs : Entraînement de haut-parleur à partir de zéro ou utilisant un modèle DeepPeaker de Philippermy pré-formé (comme Styler l'a fait). Vous pouvez le basculer en définissant la configuration (entre 'none' et 'DeepSpeaker' ).
DeepPeaker sur le jeu de données VCTK montre une identification claire parmi les haut-parleurs. La figure suivante montre le tracé T-SNE de l'intégration du haut-parleur extrait.

Citation

Veuillez citer ce référentiel par le "Citez ce référentiel" de la section environ (en haut à droite de la page principale).

Références

Diffsinger de Keonlee9420
Transformateur complet de Keonlee9420
Lynnho 'DCGAN-LSGAN-WGAN-GP-DRAGAN-PYTORCH
Seungwonpark 'Melgan
Modèles probabilistes de diffusion de débrassement
Aborder le trilemma d'apprentissage génératif avec des gans de diffusion de débrassements
Diffsinger: Singing vocal Synthesis via un mécanisme de diffusion superficiel

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-22
taille 123.48MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informations en anglais sur le développement vocal (TTS User Guide Delphi version)

2009-05-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout