تنزيل Comprehensive E2E TTS - تنزيل رمز المصدر Comprehensive E2E TTS

Comprehensive E2E TTS

كود الذكاء الاصطناعي

1.0.0

تنزيل

شامل E2E-TTS-تنفيذ Pytorch

نص من طرف إلى طرف من طرف إلى طرف (توليد موجة موجة معطى) ، يدعم عائلة من نماذج المدة غير الخاضعة للإشراف. ينمو هذا المشروع مع مجتمع الأبحاث ، بهدف تحقيق E2E-TTS النهائي . أي اقتراحات تجاه أفضل TTs من طرف إلى طرف ترحيب :)

تصميم العمارة

Wavthruvec: تمثيل الكلام الكامن كسمات وسيطة لتوليف الكلام العصبي (Siuzdak et al. ، 2022)
الطائرات: تدريب مشترك Fastspeech2 و HIFI من أجل نهاية النص على الكلام (Lim et al. ، 2022)

المشفر اللغوي

Fastspeech 2: النص السريع والعالي الجودة إلى الكلام (Ren et al. ، 2020)

صوتي upsampler

HIFI ++: إطار موحد للمفرط العصبي ، تمديد النطاق الترددي وتعزيز الكلام (Andreev et al. ، 2022)
HIFI-GAN: شبكات الخصومة التوليدية لتوليف خطاب فعال وعالي الإخلاص (Kong et al. ، 2020)

نمذجة المدة

نمذجة مدة قابلة للتمييز للنص من طرف إلى طرف (Nguyen et al. ، 2022)
محاذاة واحدة TTS لحكمهم جميعًا (Badlani et al. ، 2021)

Quickstart

تشير مجموعة البيانات إلى أسماء مجموعات البيانات مثل LJSpeech و VCTK في المستندات التالية.

التبعيات

يمكنك تثبيت تبعيات Python مع

 pip3 install -r requirements.txt

أيضا ، يتم توفير Dockerfile لمستخدمي Docker .

الاستدلال

يجب عليك تنزيل النماذج المسبقة (سيتم مشاركتها قريبًا) ووضعها في output/ckpt/DATASET/ .

للحصول على TTS واحد ، قم بتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

للحصول على TTS متعددة المتحدثين ، قم بتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

يمكن العثور على قاموس مكبرات الصوت المستفادة في preprocessed_data/DATASET/speakers.json output/result/

استنتاج الدُفعات

يتم دعم استنتاج الدُفعات أيضًا ، حاول

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

لتوليف جميع الكلمات في preprocessed_data/DATASET/val.txt .

قابلية التحكم

يمكن السيطرة على معدل الملعب/الحجم/التحدث للكلمات التوليف عن طريق تحديد نسب الملعب/الطاقة/المدة المطلوبة. على سبيل المثال ، يمكن للمرء زيادة معدل التحدث بنسبة 20 ٪ وتقليل الحجم بنسبة 20 ٪ بنسبة 20 ٪

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

إضافة- speaker_id speaker_id للحصول على TTS متعددة الكلام.

تمرين

مجموعات البيانات

مجموعات البيانات المدعومة

LJSPEEDE: تتكون مجموعة بيانات إنجليزية واحدة من 13100 مقاطع صوتية قصيرة من ممرات مكبرات الصوت من 7 كتب غير خيالية ، حوالي 24 ساعة في المجموع.
VCTK: يتضمن CSTR VCTK Corpus بيانات الكلام التي ينطقها 110 مكبرات صوت باللغة الإنجليزية ( TTS متعددة المتحدثين ) مع لهجات مختلفة. يقرأ كل متحدث حوالي 400 جملة ، تم اختيارها من إحدى الصحف ، وممر قوس قزح وفقرة استنباط تستخدم لأرشيف لهجة الكلام.

يمكن إضافة أي من مجموعة بيانات TTS الفردية (على سبيل المثال ، Blizzard Challenge 2013) ومجموعة بيانات TTS متعددة المتحدثين (على سبيل المثال ، Libritts) بعد LJSPEED و VCTK ، على التوالي. علاوة على ذلك ، يمكن تكييف لغتك ومجموعة البيانات الخاصة بك هنا.

المعالجة المسبقة

للحصول على TTS متعددة الكلام مع مكبر صوت خارجي ، قم بتنزيل نموذج RAVERMAX+TREPLET PRESTERED من Deepspeaker من Philipperemy لدمجه ويحدد موقعه ./deepspeaker/pretrained_models/
تشغيل البرنامج النصي المسبق بواسطة
```
 python3 preprocess.py --dataset DATASET
```

تمرين

تدريب النموذج الخاص بك مع

 python3 train.py --dataset DATASET

خيارات مفيدة:

يفترض المدرب تدريبًا واحدًا من العقد المتعددة GPU. لاستخدام وحدات معالجة الرسومات المحددة ، حدد CUDA_VISIBLE_DEVICES=<GPU_IDs> في بداية الأمر أعلاه.

Tensorboard

يستخدم

 tensorboard --logdir output/log

لخدمة Tensorboard على مضيفك المحلي.

ملحوظات

خياران للتضمين لإعداد TTS متعدد المتحدثين : مكبر الصوت التدريبي من الصفر أو استخدام نموذج DeepSpeaker في Philipperemy المدربين مسبقًا (كما فعل Styler). يمكنك تبديله عن طريق ضبط التكوين (بين 'none' و 'DeepSpeaker' ).
تُظهر DeepSpeaker على مجموعة بيانات VCTK تحديدًا واضحًا بين المتحدثين. يوضح الشكل التالي مؤامرة T-sne من مكبر الصوت المستخرج.