Téléchargement hifi gan - Téléchargement du code source hifi gan

hifi gan

Code Source AI

1.0.0

Télécharger

Hifi-gan: réseaux adversaires génératifs pour une synthèse de parole efficace et haute fidélité

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

Dans notre article, nous avons proposé HIFI-GAN: un modèle GAN capable de générer efficacement la parole de haute fidélité.
Nous fournissons nos modèles d'implémentation et de pré-étendue comme open source dans ce référentiel.

Résumé: Plusieurs travaux récents sur la synthèse de la parole ont utilisé des réseaux adversaires génératifs (GAN) pour produire des formes d'onde brutes. Bien que de telles méthodes améliorent l'efficacité d'échantillonnage et l'utilisation de la mémoire, leur qualité d'échantillon n'a pas encore atteint celle des modèles génératifs autorégressifs et basés sur le débit. Dans ce travail, nous proposons Hifi-Gan, qui atteint une synthèse de la parole à la fois efficace et haute fidélité. Étant donné que l'audio de la parole se compose de signaux sinusoïdaux avec diverses périodes, nous démontrons que la modélisation des modèles périodiques d'un audio est cruciale pour améliorer la qualité de l'échantillon. Une évaluation humaine subjective (score d'opinion moyen, MOS) d'un seul ensemble de données de haut-parleur indique que notre méthode proposée démontre une similitude avec la qualité humaine tout en générant 22,05 kHz audio haute fidélité 167,9 fois plus rapide que en temps réel sur un seul GPU V100. Nous montrons en outre la généralité de HIFI-GAN à l'inversion de Spectrogramme Mel des haut-parleurs invisibles et de la synthèse de la parole de bout en bout. Enfin, une petite version d'empreinte de HIFI-AG génère des échantillons 13,4 fois plus rapides que en temps réel sur CPU avec une qualité comparable à un homologue autorégressif.

Visitez notre site Web de démonstration pour des échantillons audio.

Pré-requis

Python> = 3,6
Cloner ce référentiel.
Installez les exigences Python. Veuillez référer les exigences.txt
Téléchargez et extraire l'ensemble de données LJ Speech. Et déplacez tous les fichiers WAV vers LJSpeech-1.1/wavs

Entraînement

 python train.py --config config_v1.json

Pour former le générateur V2 ou V3, remplacez config_v1.json par config_v2.json ou config_v3.json .
Les points de contrôle et la copie du fichier de configuration sont enregistrés dans le répertoire cp_hifigan par défaut.
Vous pouvez modifier le chemin en ajoutant l'option --checkpoint_path .

Perte de validation pendant la formation avec le générateur V1.

Modèle pré-entraîné

Vous pouvez également utiliser des modèles pré-entraînés que nous fournissons.
Télécharger les modèles pré-entraînés
Les détails de chaque dossier sont comme suit:

Nom du dossier	Générateur	Ensemble de données	Affronté
Lj_v1	V1	Ljspeech	Non
Lj_v2	V2	Ljspeech	Non
Lj_v3	V3	Ljspeech	Non
Lj_ft_t2_v1	V1	Ljspeech	Oui (tacotron2)
Lj_ft_t2_v2	V2	Ljspeech	Oui (tacotron2)
Lj_ft_t2_v3	V3	Ljspeech	Oui (tacotron2)
Vctk_v1	V1	Vctk	Non
Vctk_v2	V2	Vctk	Non
Vctk_v3	V3	Vctk	Non
Universal_v1	V1	Universel	Non

Nous fournissons au modèle universel des poids discriminants qui peuvent être utilisés comme base pour l'apprentissage du transfert vers d'autres ensembles de données.

Réglage fin

Générez des spectrogrammes de MEL au format Numpy à l'aide de Tacotron2 avec la forçage des enseignants.
Le nom de fichier du spectrogramme MEL généré doit correspondre au fichier audio et l'extension doit être .npy .
Exemple:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
Créez un dossier ft_dataset et copiez les fichiers MEL générés dedans.
Exécutez la commande suivante.
```
 python train.py --fine_tuning True --config config_v1.json
```
Pour d'autres options de ligne de commande, veuillez vous référer à la section Formation.

Inférence du fichier wav

Faites du répertoire test_files et copiez les fichiers WAV dans le répertoire.

Exécutez la commande suivante.

 python inference.py --checkpoint_file [generator checkpoint file path]

Les fichiers WAV générés sont enregistrés dans generated_files par défaut.
Vous pouvez modifier le chemin en ajoutant l'option --output_dir .

Inférence pour la synthèse de la parole de bout en bout

Faites du répertoire test_mel_files et copiez des fichiers de spectrogramme MEL dans le répertoire.
Vous pouvez générer des spectrogrammes de MEL en utilisant Tacotron2, Glow-TTS et ainsi de suite.

Exécutez la commande suivante.

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

Les fichiers WAV générés sont enregistrés dans generated_files_from_mel par défaut.
Vous pouvez modifier le chemin en ajoutant l'option --output_dir .