Это переосмысление нейронного вокадера в Diffwave: универсальная диффузионная модель для синтеза аудио.
Чтобы продолжить обучение модели, запустите python distributed_train.py -c config_${channel}.json , где ${channel} может быть 64 или 128 .
Чтобы перепрофилировать модель, измените параметр ckpt_iter в соответствующем файле json на -1 и используйте вышеуказанную команду.
Чтобы сгенерировать аудио, запустите python inference.py -c config_${channel}.json -cond ${conditioner_name} . Например, если имя спектрограммы MEL равен LJ001-0001.wav.pt , то ${conditioner_name} IS LJ001-0001 . При условии, что спектрограммы MEL включают LJ001-0001 через LJ001-0186 .
Обратите внимание, что вам может потребоваться тщательно настроить некоторые параметры в файле json , такие как data_path и batch_size_per_gpu .