MB iSTFT VITS with AutoVocoder
1.0.0
從VIT開始,MB-ISTFT-VIT使用以下技術提高了合成速度:
基於這個精心設計的框架,該存儲庫旨在通過AutovoCoder進一步提高聲音質量和推理速度。
此存儲庫基於MB-ISTFT-VIT,預期的修改和增強如下:
1。將基於ISTFTNET的解碼器替換為基於AutoDocoder的解碼器。
2。在ISTFT操作中,使用真實/虛構而不是相/幅度組件來構造複雜的頻譜圖。添加時間域重建損失。
3。修改後驗編碼器以接受4個複雜組件,而不是線性光譜圖。
(1024, 256, 1024) FFT/HOP/WIN大小直接生成波形,而無需UPSMPLING模塊,它具有快速的推理速度。 (將保持多頻段的啟動)Mod 3.中,通過向潛在的提供相位信息,我們測試了先驗是否可以可靠地大約這些潛在。 Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace在MB-ISTFT-VITS培訓的情況下,請運行以下腳本
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
訓練後,您可以使用temperion.ipynb檢查推理音頻