تنزيل MSMC TTS - تنزيل رمز المصدر MSMC TTS

MSMC TTS

كود الذكاء الاصطناعي

1.0.0

تنزيل

MSMC-TTS: TTS متعددة المراحل TTS

التنفيذ الرسمي لنظام الأوراق MSMC-TTS

مقاربة VQ-VAE متعددة المراحل
نحو TTS العصبية عالية الجودة للغات منخفضة الموارد من خلال تعلم التمثيل المدمج
QS-TTS: نحو توليف نص إلى كلام شبه خاضع للإشراف من خلال تعلم الكلام الذي يتم الإشراف عليه ذاتيًا المتجه

تم تحسين أحدث MSMC-TTS (MSMC-TTS-V2) باستخدام Autoender القائم على MSMC-VQ-GAN يجمع بين MSMC-VQ-VAE و Hifigan. لا يزال يتم تطبيق المتنبئ متعدد المراحل كنموذج صوتي للتنبؤ بـ MSMCRs لتوليف TTS. الصورة الرمزية

أخبار

[2024.04.10] (قيد التقدم) يتوفر تنفيذ QS-TTS على أمثلة/CSMSC/التكوينات

[2022.10.20] نصدر أحدث إصدار من MSMC-TTS (MSMC-TTS-V2) استنادًا إلى MSMC-VQ-GAN. يرجى الرجوع إلى آخر ورقة لدينا "نحو TTS العصبية عالية الجودة للغات منخفضة الموارد من خلال تعلم التمثيل المدمج"

[2022.10.18] سنقوم بإصدار رمز جميع إصدارات MSMC-TTS في هذا الريبو. وأي شخص مهتم بهذا العمل هو موضع ترحيب للانضمام إلينا لاستكشاف المزيد من تمثيلات الكلام المفيدة لتوليف الكلام.

[2022.9.22] "تم نشر نهج VQ-VAE متعدد المراحل متعدد المراحل إلى TTS العصبي عالي الأداء" في Interspeech 2022.

الاستخدام

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

نصائح

تساعدك على تدريب طرازاتك بشكل أفضل!

MSMC-VQ-GAN

كن حذرًا من انضغاط تمثيلك. بالنسبة إلى TTS القياسي المفرد ، يمكنك تجربة 2-4 رؤوس ، والتي قد تحتوي كل رأس على 64-256 كود.
يرجى استخدام عدد أقل من الكودونات إذا كان حجم الدُفعة صغيرًا جدًا ، وإلا فإن حجم إطار الدفعة غير كافٍ لدعم تحديث الكود الديناميكي.
يمكنك تغيير وزن فقدان التشفير إذا وجدت أن بعض المراحل في MSMC-VQ-Gan تتعلم شيئًا.

تنبؤ متعدد المراحل

يمكن أن تؤدي الخسارة الثلاثية إلى تحسين تعبير TTS ، ولكن قد يؤدي أيضًا إلى تحطيم النعومة. قد تجرب أوزان مختلفة من فقدان الثلاثي ، مثل 0 ، 0.01 ، 0.1 ، 1 ، للعثور على الأداء الأكثر توازناً.
بالنسبة لمجموعات البيانات ذات الموارد المنخفضة ، يرجى استخدام نماذج أصغر لتجنب الإفراط في التنسيق. التوقف المبكر هو أيضا خدعة مفيدة.

الاستشهادات

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}