melgan neurips
1.0.0
先前的作品發現,用gan生成連貫的原始音頻波形是具有挑戰性的。在本文中,我們表明,可以通過引入一系列建築變化和簡單的訓練技術來可靠地訓練gans來產生高質量的相干波形。主觀評估度量(平均意見分數或MOS)顯示了提出的高質量MEL光譜反演方法的有效性。為了建立所提出的技術的一般性,我們在語音綜合,音樂領域翻譯和無條件的音樂綜合中展示了模型的定性結果。我們通過消融研究評估模型的各種組成部分,並提出了一組針對條件序列綜合任務設計通用歧視器和發電機的準則。我們的模型是非解放性的,完全卷積的,其參數明顯少於競爭模型,並且可以概括地看不見的揚聲器以進行MEL-SPECTROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPROMPORINION。我們的Pytorch實現的運行速度比GTX 1080TI GPU上的實時時間快100倍以上,並且在CPU上的實時運行速度比實時的2倍以上,而沒有任何特定於硬件的優化技巧。以樣本和隨附的代碼即將推出的博客文章。
訪問我們的網站獲取樣品。您可以根據使用Melgan的端到端語音綜合管道創建此處創建的語音校正應用程序。
檢查幻燈片,如果您不參加2019年Neurips 2019會議以查看我們的海報。
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
創建一個原始文件夾,其中所有樣品存儲在wavs/子文件夾中。運行以下命令:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)