Dies ist ein Neuauflagen des neuronalen Vokoders in Diffwave: ein vielseitiges Diffusionsmodell für die Audio -Synthese.
Um das Modell fortzusetzen, führen Sie python distributed_train.py -c config_${channel}.json aus, wobei ${channel} entweder 64 oder 128 sein kann.
Um das Modell zu übermitteln, ändern Sie den Parameter ckpt_iter in der entsprechenden json -Datei in -1 und verwenden Sie den obigen Befehl.
Um Audio zu generieren, führen Sie python inference.py -c config_${channel}.json -cond ${conditioner_name} aus. Wenn der Name des Mel-Spektrogramms beispielsweise LJ001-0001.wav.pt lautet, ist ${conditioner_name} LJ001-0001 . Bereitstellung von Mel-Spektrogrammen umfassen LJ001-0001 bis LJ001-0186 .
Beachten Sie, dass Sie möglicherweise einige Parameter in der json -Datei sorgfältig anpassen müssen, z. B. data_path und batch_size_per_gpu .