AutoVocoder
1.0.0
使用可區分的數字信號處理從學習的語音表示,自動編碼器的非正式Pytorch實現:快速波形的生成。該存儲庫基於ISTFTNET GITHUB(紙) 。

Disclaimer : This repo is built for testing purpose.
python train.py --config config.json
在train.py中,更改--input_wavs_dir到ljspeech-1.1/wav的目錄。
在config.json中,更改AV128 , AV192和AV256 (默認值)的latent_dim 。
考慮到Section 3.3 ,您可以在cartesian (默認值), polar和both之間選擇dec_istft_input 。
培訓期間的驗證損失AV256 。

在我們的測試中,它比HIFI-V1(指官方存儲庫)快了幾乎3倍。
@article{Webber2022AutovocoderFW,
title={Autovocoder: Fast Waveform Generation from a Learned Speech Representation using Differentiable Digital Signal Processing},
author={Jacob J. Webber and Cassia Valentini-Botinhao and Evelyn Williams and Gustav Eje Henter and Simon King},
journal={ArXiv},
year={2022},
volume={abs/2211.06989}
}