melgan neurips
1.0.0
先前的作品发现,用gan生成连贯的原始音频波形是具有挑战性的。在本文中,我们表明,可以通过引入一系列建筑变化和简单的训练技术来可靠地训练gans来产生高质量的相干波形。主观评估度量(平均意见分数或MOS)显示了提出的高质量MEL光谱反演方法的有效性。为了建立所提出的技术的一般性,我们在语音综合,音乐领域翻译和无条件的音乐综合中展示了模型的定性结果。我们通过消融研究评估模型的各种组成部分,并提出了一组针对条件序列综合任务设计通用歧视器和发电机的准则。我们的模型是非解放性的,完全卷积的,其参数明显少于竞争模型,并且可以概括地看不见的扬声器以进行MEL-SPECTROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPORINION。我们的Pytorch实现的运行速度比GTX 1080TI GPU上的实时时间快100倍以上,并且在CPU上的实时运行速度比实时的2倍以上,而没有任何特定于硬件的优化技巧。以样本和随附的代码即将推出的博客文章。
访问我们的网站获取样品。您可以根据使用Melgan的端到端语音综合管道创建此处创建的语音校正应用程序。
检查幻灯片,如果您不参加2019年Neurips 2019会议以查看我们的海报。
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
创建一个原始文件夹,其中所有样品存储在wavs/子文件夹中。运行以下命令:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)