Ini adalah reimplementaion vocoder saraf di DiffWave: model difusi serbaguna untuk sintesis audio.
Untuk melanjutkan pelatihan model, jalankan python distributed_train.py -c config_${channel}.json , di mana ${channel} dapat 64 atau 128 .
Untuk melatih kembali model, ubah parameter ckpt_iter dalam file json yang sesuai ke -1 dan gunakan perintah di atas.
Untuk menghasilkan audio, jalankan python inference.py -c config_${channel}.json -cond ${conditioner_name} . Misalnya, jika nama spektrogram MEL adalah LJ001-0001.wav.pt , maka ${conditioner_name} adalah LJ001-0001 . Disediakan MEL Spectrograms termasuk LJ001-0001 hingga LJ001-0186 .
Catatan, Anda mungkin perlu menyesuaikan beberapa parameter dengan hati -hati dalam file json , seperti data_path dan batch_size_per_gpu .