WG WaveNet
1.0.0
在我们最近的论文中,我们提出了WG-Wavenet,这是快速,轻巧且高质量的波形生成模型。 WG-Wavenet由基于紧凑的流量模型和后过滤器组成。通过最大化训练数据的可能性并优化频域上的损失功能,可以共同训练这两个组件。当我们设计一个基于流量的模型时,与其他波形生成模型相比,在训练时间和推理时间内,所提出的模型所需的计算资源要少得多。即使模型被高度压缩,后过滤器仍保持生成的波形的质量。我们的Pytorch实现可以使用少于8 GB GPU内存的训练,并在NVIDIA 1080TI GPU上以超过5000 kHz的速度生成音频样品。此外,即使在CPU上合成,我们也表明该方法能够生成44.1 kHz语音波形的速度比实时快1.2倍。实验还表明,生成的音频的质量与其他方法的质量相当。
访问Demopage获取音频样本。
下载LJ演讲。在此示例中,它在data/
对于培训,请运行以下命令。
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > 正在进行中。
我们将把这个Vocoder与Tacotron2结合在一起。更多信息和COLAB演示将在此处发布。