cnn_vocoder
1.0.0
注意:我不再從事這個項目。參見#9。
這項工作的靈感來自使用多頭卷積神經網絡在快速頻譜反轉中描述的M-CNN模型。作者表明,即使是一個簡單的UPSMPLING網絡也足以從頻譜圖/MEL-SPECTROGRAM合成波形。
在此存儲庫中,我將頻譜功能用於訓練模型,因為它包含的信息多於MEL-Spectrogram功能。但是,由於從頻譜圖到MEL光譜圖的轉換只是一個線性投影,因此,基本上,您可以訓練一個簡單的網絡預測MEL光譜圖的頻譜圖。您還可以更改參數,以便能夠從MEL-Spectrogram功能中訓練Vocoder。
與M-CNN相比,我提出的網絡有一些差異:
$ pip install -r requirements.txt我將LJSpeech數據集用於實驗。如果您還沒有,請下載數據集並將其放在某個地方。
之後,您可以運行命令為我們的實驗生成數據集:
$ python preprocessing.py --samples_per_audio 20
--out_dir ljspeech
--data_dir path/to/ljspeech/dataset
--n_workers 4$ python train.py --out_dir ${output_directory}有關更多培訓選項,請運行:
$ python train.py --help$ python gen_spec.py -i sample.wav -o out.npz$ python synthesis.py --model_path path/to/checkpoint
--spec_path out.npz
--out_path out.wav您可以在這裡獲得我的預訓練模型。
該實現使用NVIDIA,Ryuichi Yamamoto,Keith Ito的代碼,如我的代碼中所述。
麻省理工學院