AutoVocoder
1.0.0
Неофициальная реализация Pytorch Autovocoder: быстрое генерация формы волны из изученного речевого представления с использованием дифференцируемой цифровой обработки сигналов. Этот репозиторий основан на GitHub ISTFTNET (бумага) .

Disclaimer : This repo is built for testing purpose.
python train.py --config config.json
В train.py , изменение --input_wavs_dir в каталог LJSPEECH-1.1/WAVS.
В config.json измените latent_dim для AV128 , AV192 и AV256 (по умолчанию).
Принимая во внимание Section 3.3 , вы можете выбрать dec_istft_input между cartesian (по умолчанию), polar и both .
Потеря проверки AV256 во время обучения.

В нашем тесте он сходится почти в 3 раза быстрее, чем hifi-V1 (ссылаясь на официальное репо).
@article{Webber2022AutovocoderFW,
title={Autovocoder: Fast Waveform Generation from a Learned Speech Representation using Differentiable Digital Signal Processing},
author={Jacob J. Webber and Cassia Valentini-Botinhao and Evelyn Williams and Gustav Eje Henter and Simon King},
journal={ArXiv},
year={2022},
volume={abs/2211.06989}
}