WG WaveNet
1.0.0
最近の論文では、WG-Wavenet、高速、軽量、高品質の波形生成モデルを提案しています。 WG-Wavenetは、コンパクトなフローベースのモデルとポストフィルターで構成されています。 2つのコンポーネントは、トレーニングデータの可能性を最大化し、周波数ドメインの損失関数を最適化することにより、共同でトレーニングされます。圧縮されたフローベースのモデルを設計する際、提案されたモデルは、トレーニング時間と推論時間の両方で他の波形生成モデルと比較してはるかに少ない計算リソースを必要とします。モデルは高度に圧縮されていますが、ポストフィルターは生成された波形の品質を維持します。 Pytorchの実装は、8 GB未満のGPUメモリを使用してトレーニングすることができ、NVIDIA 1080TI GPUで5000 kHzを超えるレートでオーディオサンプルを生成できます。さらに、CPUで合成したとしても、提案された方法が44.1 kHzの音声波形をリアルタイムの1.2倍高速で生成できることを示します。また、実験は、生成されたオーディオの品質が他の方法の品質に匹敵することを示しています。
オーディオサンプルについては、デモページにアクセスしてください。
LJスピーチをダウンロードします。この例では、それはdata/
トレーニングについては、次のコマンドを実行します。
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > 進行中の作業。
このボコーダーとTacotron2を組み合わせます。詳細情報とColabデモはこちらからリリースされます。