Téléchargement AiVoice - Téléchargement du code source AiVoice

AiVoice

Code Source AI

1.0.0

Télécharger

Voix profonde 3

Il s'agit d'une implémentation TensorFlow de la voix profonde 3: 2000 de texte à vocation neuronale. Pour l'instant, nous nous concentrons uniquement sur la synthèse de haut-parleur unique.

Exigence

TensorFlow> = 1.2
Python> = 3.0

Ensemble de données

L'ensemble de données de discours LJ

Prétraitement

Téléchargez et dézipez l'ensemble de données LJ Speech. Courir:

 python prepro.py

Remarque: Assurez-vous que nous avons dézippé l'ensemble de données dans la même choeur de prepro.py .

Après cela, nous obtiendrions trois nouveaux dossiers:

 ├── dones          [New]
├── mags           [New]
├── mels           [New]
├── metadata.csv
├── README
└── wavs

Entraînement

Les données de formation sont chargées à partir de ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags par défaut. Si nous voulons modifier le chemin de chargement, nous pourrions modifier la configuration dans class Hyperparams .

Pour former le modèle, nous utilisons cette commande:

 python train.py

Modèle pré-formé

Actuellement, nous ne pouvons pas obtenir de bons résultats. Cependant, nous fournissons toujours notre modèle pré-formé au cas où quelqu'un serait intéressé.

Modèle pré-formé.

Sa figure d'attention est la suivante:

Tous les chiffres d'attention générés à la formation sont inclus dans le fichier zippé du modèle pré-formé.

Description du fichier

hyperparams.py: Hyper Paramètres
prepro.py: crée des entrées et des cibles, c'est-à-dire le spectrogramme MEL, l'amplitude et les dons.
data_load.py
utils.py: plusieurs fonctions opérationnelles personnalisées.
modules.py: blocs de construction pour les réseaux.
Networks.py: Encodeur, décodeur et convertisseur
Train.py: train
synthétiser.py: inférence
test_sents.txt: quelques phrases de test dans le papier.