Начиная с VIT, MB-ISTFT-Vits улучшает скорость синтеза, используя методы ниже:
Основываясь на этой хорошо разработанной структуре, этот репозиторий направлен на дальнейшее улучшение качества звука и вывода с помощью Autovocoder.
Этот репо основан на MB-ISTFT-виноградах, а ожидаемые модификации и усовершенствования приведены ниже:
1. Замените декодер на основе ISTFTNet на декодер на основе автоэвокодера.
2. В операции ISTFT используйте реальные/воображаемые, а не компоненты фазы/величины для построения сложной спектрограммы. Добавить потерю реконструкции времени.
3. Пересмотрите задний энкодер, чтобы принять 4 комплексных компонента вместо линейной спектрограммы.
(1024, 256, 1024) FFT/размер HOP/WIN без модулей UPSMPLING. (Многополосная стартагия будет поддерживаться)Mod 3. , Предоставляя информацию о фазе задержки, мы проверяем, можно ли достоверно приблизительно приблизительно. Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplaceВ случае обучения MB-istft-vits запустите следующий сценарий
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
После обучения вы можете проверить аудио вывода с помощью specy.ipynb