Implementasi model Text-to-speech berbasis Seq2seq Convolutional berdasarkan Tachibana ET. al. (2017). Diberi urutan karakter, model memprediksi urutan bingkai spektrogram dalam dua tahap (Text2Mel dan SSRN).
Seperti yang dibahas dalam laporan ini, kita bisa mendapatkan kualitas audio yang cukup baik dengan Text2Mel yang dilatih untuk 60 ribu langkah, SSRN untuk 100 ribu langkah. Ini sesuai dengan sekitar (6+12) jam pelatihan pada satu GPU Tesla K80 pada dataset pidato LJ.
Model Pretrained : [Unduh] Sampel : [Base-Model-M4] [Tanpa Pengawasan-Despoder-M1]
Untuk detail lebih lanjut lihat: kertas poster
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Jalankan setiap file dengan python <script_file>.py -h untuk melihat detail penggunaan.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(Dari SRC/ Init .py) Kode Utilitas telah dirujuk dari sumber -sumber berikut, semua kode lainnya adalah penulisnya sendiri: