DiffWave Vocoder
1.0.0
これは、diffwaveにおける神経ボコーダーの再実装です:オーディオ合成のための汎用性の高い拡散モデル。
モデルのトレーニングを続けるには、 python distributed_train.py -c config_${channel}.jsonを実行します。ここで、 ${channel} 64または128になります。
モデルを再訓練するには、対応するjsonファイルのパラメーターckpt_iter -1に変更し、上記のコマンドを使用します。
オーディオを生成するには、 python inference.py -c config_${channel}.json -cond ${conditioner_name}を実行します。たとえば、MELスペクトログラムの名前がLJ001-0001.wav.ptの場合、 ${conditioner_name}はLJ001-0001です。 MELスペクトログラムには、 LJ001-0001からLJ001-0186が含まれます。
注意してください、 data_pathやbatch_size_per_gpuなど、 jsonファイルのいくつかのパラメーターを慎重に調整する必要がある場合があります。