以前の作品では、GANを使用して一貫した生のオーディオ波形を生成することが困難であることがわかりました。このホワイトペーパーでは、一連のアーキテクチャの変更とシンプルなトレーニング技術を導入することにより、高品質のコヒーレント波形を生成するためにGANSを確実にトレーニングできることを示しています。主観的評価メトリック(平均意見スコア、またはMOS)は、高品質のメルスペクトルの反転に対する提案されたアプローチの有効性を示しています。提案された手法の一般性を確立するために、音声合成、音楽ドメイン翻訳、無条件の音楽統合におけるモデルの定性的な結果を示します。アブレーション研究を通じてモデルのさまざまなコンポーネントを評価し、条件付きシーケンス合成タスクのために汎用判別器とジェネレーターを設計するための一連のガイドラインを提案します。私たちのモデルは、競合するモデルよりも大幅に少ないパラメーターを備えた、完全に畳み込み、完全に畳み込み的であり、メルスペクトルの反転のために目に見えないスピーカーに一般化します。 Pytorchの実装は、GTX 1080Ti GPUのリアルタイムよりも100倍以上速く、CPUでのリアルタイムよりも2倍以上速く、ハードウェア固有の最適化トリックはありません。サンプルとそれに付随するコードを含むブログ投稿が近日公開されます。
サンプルについては、当社のウェブサイトにアクセスしてください。ここでは、メルガンを使用したエンドツーエンドの音声合成パイプラインに基づいて作成された音声補正アプリケーションを試すことができます。
Neurips 2019カンファレンスに参加していない場合は、スライドを確認してポスターをチェックしてください。
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
すべてのサンプルがwavs/ SUBFOLDERに保存された生のフォルダーを作成します。これらのコマンドを実行します:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)