Mise en œuvre d'un modèle de texte à dispection basé sur SEQ2SEQ convolutionnel basé sur Tachibana et. al. (2017). Étant donné une séquence de caractères, le modèle prédit une séquence de trames de spectrogramme en deux étapes (Text2Mel et SSRN).
Comme discuté dans le rapport, nous pouvons obtenir une qualité audio assez décente avec Text2Mel formé pour 60 000 étapes, SSRN pour 100 000 étapes. Cela correspond à environ (6 + 12) heures de formation sur un seul GPU Tesla K80 sur l'ensemble de données LJ.
Modèle pré-entraîné : [Télécharger] Échantillons : [Base-Model-M4] [UNSUPERVISED-DECODER-M1]
Pour plus de détails, voir: Papier d'affiche
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Exécutez chaque fichier avec python <script_file>.py -h pour voir les détails de l'utilisation.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(De SRC / INIT .PY) Le code utilitaire a été référencé à partir des sources suivantes, tous les autres code sont les propres auteur: