بدءًا من الحالات ، تعمل خلفات طوفية MB على تحسين سرعة التوليف باستخدام التقنيات أدناه:
استنادًا إلى هذا الإطار المصمم جيدًا ، يهدف هذا المستودع إلى زيادة تحسين جودة الصوت وسرعة الاستدلال مع AutoVocoder.
يعتمد هذا الريبو على طوابع طوابع MB ، والتعديلات والتحسينات المتوقعة أدناه:
1. استبدل وحدة فك ترميز ISTFTNET المستندة إلى وحدة فك ترميز Autovocoder.
2. في عملية ISTFT ، استخدم مكونات حقيقية/وهمية بدلاً من مكونات الطور/الحجم لبناء طيف معقد. أضف فقدان إعادة بناء المجال الزمني.
3. مراجعة المشفر الخلفي لقبول 4 مكونات معقدة بدلاً من الطيف الخطي.
(1024, 256, 1024) حجم FFT/HOP/WIN دون وحدات UPSMPLING. (سيتم الحفاظ على Startegy متعدد النطاق)Mod 3. ، من خلال توفير معلومات الطور إلى Latouts ، نختبر ما إذا كان يمكن لـ PRICE تقريب هذه اللاتينية بشكل موثوق. Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeakln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplaceفي حالة التدريب على طوفية MB ، قم بتشغيل البرنامج النصي التالي
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
بعد التدريب ، يمكنك التحقق من صوت الاستدلال باستخدام Interference.ipynb