Implementierung eines Faltungs-SEQ2SEQ-basierten Text-zu-Sprach-Modells basierend auf Tachibana ET. al. (2017). Bei einer Sequenz von Zeichen prognostiziert das Modell eine Sequenz von Spektrogrammrahmen in zwei Stufen (Text2Mel und SSRN).
Wie im Bericht erläutert, können wir mit Text2Mel für 60.000 Schritte, SSRN für 100.000 Schritte, ziemlich anständige Audioqualität erhalten. Dies entspricht ungefähr (6+12) Stunden Training auf einem einzelnen Tesla K80 -GPU im LJ -Sprachdatensatz.
Vorbereitete Modell : [Download] Beispiele : [Basismodell-M4] [unbeaufsichtigtes Dekodierer-M1]
Weitere Informationen finden Sie unter : Posterpapier
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Führen Sie jede Datei mit python <script_file>.py -h aus, um die Verwendungsdetails anzuzeigen.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(Aus SRC/ INIT .PY) Der Dienstprogrammcode wurde aus den folgenden Quellen verwiesen, jeder andere Code ist der eigene des Autors: