AutoVocoder
1.0.0
非公式のPytorchオートボコーダーの実装:微分可能なデジタル信号処理を使用した学習音声表現からの高速波形生成。このリポジトリは、ISTFTNET GitHub(Paper)に基づいています。

Disclaimer : This repo is built for testing purpose.
python train.py --config config.json
train.pyで、変更--input_wavs_dir ljspeech-1.1/wavsのディレクトリへ。
config.jsonでは、 AV128 、 AV192 、およびAV256のlatent_dim変更します(デフォルト)。
Section 3.3考慮して、 cartesian (デフォルト)、 polar 、およびbothの間でdec_istft_inputを選択できます。
トレーニング中のAV256の検証損失。

テストでは、HIFI-V1よりもほぼ3倍速く収束します(公式リポジトリを参照)。
@article{Webber2022AutovocoderFW,
title={Autovocoder: Fast Waveform Generation from a Learned Speech Representation using Differentiable Digital Signal Processing},
author={Jacob J. Webber and Cassia Valentini-Botinhao and Evelyn Williams and Gustav Eje Henter and Simon King},
journal={ArXiv},
year={2022},
volume={abs/2211.06989}
}