MB iSTFT VITS with AutoVocoder
1.0.0
从VIT开始,MB-ISTFT-VIT使用以下技术提高了合成速度:
基于这个精心设计的框架,该存储库旨在通过AutovoCoder进一步提高声音质量和推理速度。
此存储库基于MB-ISTFT-VIT,预期的修改和增强如下:
1。将基于ISTFTNET的解码器替换为基于AutoDocoder的解码器。
2。在ISTFT操作中,使用真实/虚构而不是相/幅度组件来构造复杂的频谱图。添加时间域重建损失。
3。修改后验编码器以接受4个复杂组件,而不是线性光谱图。
(1024, 256, 1024) FFT/HOP/WIN大小直接生成波形,而无需UPSMPLING模块,它具有快速的推理速度。 (将保持多频段的启动)Mod 3.中,通过向潜在的提供相位信息,我们测试了先验是否可以可靠地大约这些潜在。 Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace在MB-ISTFT-VITS培训的情况下,请运行以下脚本
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
训练后,您可以使用temperion.ipynb检查推理音频