cnn_vocoder
1.0.0
注意:我不再从事这个项目。参见#9。
这项工作的灵感来自使用多头卷积神经网络在快速频谱反转中描述的M-CNN模型。作者表明,即使是一个简单的UPSMPLING网络也足以从频谱图/MEL-SPECTROGRAM合成波形。
在此存储库中,我将频谱功能用于训练模型,因为它包含的信息多于MEL-Spectrogram功能。但是,由于从频谱图到MEL光谱图的转换只是一个线性投影,因此,基本上,您可以训练一个简单的网络预测MEL光谱图的频谱图。您还可以更改参数,以便能够从MEL-Spectrogram功能中训练Vocoder。
与M-CNN相比,我提出的网络有一些差异:
$ pip install -r requirements.txt我将LJSpeech数据集用于实验。如果您还没有,请下载数据集并将其放在某个地方。
之后,您可以运行命令为我们的实验生成数据集:
$ python preprocessing.py --samples_per_audio 20
--out_dir ljspeech
--data_dir path/to/ljspeech/dataset
--n_workers 4$ python train.py --out_dir ${output_directory}有关更多培训选项,请运行:
$ python train.py --help$ python gen_spec.py -i sample.wav -o out.npz$ python synthesis.py --model_path path/to/checkpoint
--spec_path out.npz
--out_path out.wav您可以在这里获得我的预训练模型。
该实现使用NVIDIA,Ryuichi Yamamoto,Keith Ito的代码,如我的代码中所述。
麻省理工学院