WG WaveNet
1.0.0
在我們最近的論文中,我們提出了WG-Wavenet,這是快速,輕巧且高質量的波形生成模型。 WG-Wavenet由基於緊湊的流量模型和後過濾器組成。通過最大化訓練數據的可能性並優化頻域上的損失功能,可以共同訓練這兩個組件。當我們設計一個基於流量的模型時,與其他波形生成模型相比,在訓練時間和推理時間內,所提出的模型所需的計算資源要少得多。即使模型被高度壓縮,後過濾器仍保持生成的波形的質量。我們的Pytorch實現可以使用少於8 GB GPU內存的訓練,並在NVIDIA 1080TI GPU上以超過5000 kHz的速度生成音頻樣品。此外,即使在CPU上合成,我們也表明該方法能夠生成44.1 kHz語音波形的速度比實時快1.2倍。實驗還表明,生成的音頻的質量與其他方法的質量相當。
訪問Demopage獲取音頻樣本。
下載LJ演講。在此示例中,它在data/
對於培訓,請運行以下命令。
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > 正在進行中。
我們將把這個Vocoder與Tacotron2結合在一起。更多信息和COLAB演示將在此處發布。