Il s'agit d'une réimplémentation du voccodeur neural dans Diffwave: un modèle de diffusion polyvalent pour la synthèse audio.
Pour continuer à former le modèle, exécutez python distributed_train.py -c config_${channel}.json , où ${channel} peut être 64 ou 128 .
Pour recycler le modèle, modifiez le paramètre ckpt_iter dans le fichier json correspondant à -1 et utilisez la commande ci-dessus.
Pour générer de l'audio, exécutez python inference.py -c config_${channel}.json -cond ${conditioner_name} . Par exemple, si le nom du spectrogramme MEL est LJ001-0001.wav.pt , alors ${conditioner_name} est LJ001-0001 . Les spectrogrammes MEL fournis incluent LJ001-0001 via LJ001-0186 .
Remarque, vous devrez peut-être ajuster soigneusement certains paramètres dans le fichier json , tels que data_path et batch_size_per_gpu .