MB iSTFT VITS with AutoVocoder下载MB iSTFT VITS with AutoVocoder源代码下载

下载

MB-istft-fit-vits带有自动编码器

从VIT开始，MB-ISTFT-VIT使用以下技术提高了合成速度：

基于这个精心设计的框架，该存储库旨在通过AutovoCoder进一步提高声音质量和推理速度。
此存储库基于MB-ISTFT-VIT，预期的修改和增强如下：

由于VIT的性质对强大的潜伏期进行了建模，因此由于其自动编码器体系结构，AutovoCoder可以是适当的应用。此外，它具有通过(1024, 256, 1024) FFT/HOP/WIN大小直接生成波形，而无需UPSMPLING模块，它具有快速的推理速度。（将保持多频段的启动）
传统的TTS模型在内，包括VIT，建模阶段信息完全是解码器（Vocoder）的作用。在Mod 3.中，通过向潜在的提供相位信息，我们测试了先验是否可以可靠地大约这些潜在。

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

python> = 3.6
克隆这个存储库
安装Python要求。请参阅要求
1. 您可能需要先安装ESPEAK： apt-get install espeak
下载数据集
1. 下载并提取LJ语音数据集，然后重命名或创建指向数据集文件夹的链接： ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
如果您使用自己的数据集，则构建单调对齐搜索并进行预处理。

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

在MB-ISTFT-VITS培训的情况下，请运行以下脚本

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

训练后，您可以使用temperion.ipynb检查推理音频

展开

附加信息