LVCNet
1.0.0
使用LVCNET来设计平行Wavegan的发电机和训练它的相同策略,新Vocoder的推理速度比原始Vocoder快5倍以上,而没有任何音频质量降解。
ICASSP2021接受了我们目前的作品[论文],我们以前的作品在Melglow中进行了描述。
准备数据,从https://keithito.com/ljspeech-dataset/下载LJSpeech数据集,然后将其保存在data/LJSpeech-1.1中。然后运行
python - m vocoder . preprocess - - data - dir . / data / LJSpeech - 1.1 - - config configs / lvcgan . v1 . yaml计算MEL-SEPCTRUMS并保存在文件夹temp/中。
培训LVCNET
python - m vocoder . train - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1测试LVCNET
python - m vocoder . test - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1实验结果,包括训练日志,模型检查点和合成的音频,存储在文件夹exps/exp.lvcgan.v1/ 。
相似性,您还可以使用Config File configs/pwg.v1.yaml来训练并行Wavegan模型。
# training
python - m vocoder . train - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1
# test
python - m vocoder . test - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1 使用张板查看实验训练过程:
tensorboard --logdir exps


音频样品保存在samples/
samples/*_lvc.wav由lvcnet生成samples/*_pwg.wav由平行wavegan生成samples/*_real.wav是真实音频。 LVCNET:波形生成的有效条件依赖性建模网络,https://arxiv.org/abs/2102.10815
Melglow:基于位置变量卷积的有效波形生成网络,https://arxiv.org/abs/2012.01684
https://github.com/kan-bayashi/parallelwavegan
https://github.com/lmnt-com/diffwave