Il s'agit d'une implémentation TensorFlow de la voix profonde 3: 2000 de texte à vocation neuronale. Pour l'instant, nous nous concentrons uniquement sur la synthèse de haut-parleur unique.
L'ensemble de données de discours LJ
Téléchargez et dézipez l'ensemble de données LJ Speech. Courir:
python prepro.py
Remarque: Assurez-vous que nous avons dézippé l'ensemble de données dans la même choeur de prepro.py .
Après cela, nous obtiendrions trois nouveaux dossiers:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Les données de formation sont chargées à partir de ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags par défaut. Si nous voulons modifier le chemin de chargement, nous pourrions modifier la configuration dans class Hyperparams .
Pour former le modèle, nous utilisons cette commande:
python train.py
Actuellement, nous ne pouvons pas obtenir de bons résultats. Cependant, nous fournissons toujours notre modèle pré-formé au cas où quelqu'un serait intéressé.
Modèle pré-formé.
Sa figure d'attention est la suivante:
Tous les chiffres d'attention générés à la formation sont inclus dans le fichier zippé du modèle pré-formé.
La majeure partie du code est empruntée à Kyubyong / DeepVoice3.