เริ่มต้นจาก VITS, MB-istft-vits ช่วยเพิ่มความเร็วการสังเคราะห์โดยใช้เทคนิคด้านล่าง:
ขึ้นอยู่กับกรอบการทำงานที่ออกแบบมาอย่างดีนี้พื้นที่เก็บข้อมูลนี้มีวัตถุประสงค์เพื่อปรับปรุงคุณภาพเสียงและความเร็วในการอนุมานด้วย Autovocoder
repo นี้ขึ้นอยู่กับ mb-istft-vits และการปรับเปลี่ยนและการปรับปรุงที่คาดหวังอยู่ด้านล่าง:
1. แทนที่ตัวถอดรหัสที่ใช้ iTFTNET เป็นตัวถอดรหัสที่ใช้อัตโนมัติ
2. ในการดำเนินการ ISTFT ให้ใช้จริง/จินตนาการแทนส่วนประกอบเฟส/ขนาดเพื่อสร้างสเปกโตรแกรมที่ซับซ้อน เพิ่มการสูญเสียการสร้างโดเมนเวลา
3. แก้ไขตัวเข้ารหัสด้านหลังเพื่อรับ 4 ส่วนประกอบที่ซับซ้อนแทนที่จะเป็น Spectrogram เชิงเส้น
(1024, 256, 1024) FFT/Hop/Win ขนาดโดยไม่ต้องเพิ่มโมดูล UPSMPLING (startegy หลายวงจะได้รับการดูแล)Mod 3. โดยการให้ข้อมูลเฟสแก่ Latents เราทดสอบว่าก่อนหน้านี้สามารถประมาณแฝงเหล่านี้ได้อย่างน่าเชื่อถือ Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplaceในกรณีของการฝึกอบรม MB-istft-vits ให้เรียกใช้สคริปต์ต่อไปนี้
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
หลังจากการฝึกอบรมคุณสามารถตรวจสอบการอนุมานเสียงโดยใช้การอนุมาน.ipynb