تنفيذ Pytorch من portaspeech: محمول وعالي الجودة النص إلى الكلام.

عينات الصوت متوفرة في /العرض التوضيحي.
| الوحدة النمطية | طبيعي | صغير | عادي (ورقة) | صغير (ورقة) |
|---|---|---|---|---|
| المجموع | 24m | 7.6m | 21.8 م | 6.7m |
| اللغوي | 3.7m | 1.4m | - | - |
| variationalgenerator | 11 م | 2.8 م | - | - |
| FlowPostnet | 9.3m | 3.4m | - | - |
تشير مجموعة البيانات إلى أسماء مجموعات البيانات مثل LJSpeech في المستندات التالية.
يمكنك تثبيت تبعيات Python مع
pip3 install -r requirements.txt
أيضا ، يتم توفير Dockerfile لمستخدمي Docker .
يجب عليك تنزيل النماذج المسبقة ووضعها في output/ckpt/DATASET/ .
للحصول على TTS واحد ، قم بتشغيل
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET
سيتم وضع الكلمات المولدة في output/result/ .
يتم دعم استنتاج الدُفعات أيضًا ، حاول
python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET
لتوليف جميع الكلمات في preprocessed_data/DATASET/val.txt .
يمكن السيطرة على معدل التحدث للكلمات التوليف من خلال تحديد نسب المدة المطلوبة. على سبيل المثال ، يمكن للمرء زيادة معدل التحدث بمقدار 20
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8
يرجى ملاحظة أن قابلية التحكم نشأت من Fastspeesh2 وليس مصلحة حيوية لـ PortAspeech.
مجموعات البيانات المدعومة
يجري
python3 prepare_align.py --dataset DATASET
لبعض الاستعدادات.
بالنسبة للمحاذاة القسرية ، يتم استخدام Montreal القسري Aligner (MFA) للحصول على المحاذاة بين الكلمات وتسلسلات الصوت. يتم توفير محاذاة مسبقًا لمجموعات البيانات هنا. يجب عليك إلغاء ضغط الملفات في preprocessed_data/DATASET/TextGrid/ . بالتناوب ، يمكنك تشغيل جهاز Aligner بنفسك.
بعد ذلك ، قم بتشغيل البرنامج النصي المسبق
python3 preprocess.py --dataset DATASET
تدريب النموذج الخاص بك مع
python3 train.py --dataset DATASET
خيارات مفيدة:
--use_amp إلى الأمر أعلاه.CUDA_VISIBLE_DEVICES=<GPU_IDs> في بداية الأمر أعلاه.يستخدم
tensorboard --logdir output/log
لخدمة Tensorboard على مضيفك المحلي. يتم عرض منحنيات الخسارة ، وتوليف الطيف الطيف ، والسمعات.




# In the train.yaml
aligner :
helper_type : " dga " # ["dga", "ctc", "none"]


يرجى الاستشهاد بهذا المستودع من خلال "استشهد بهذا المستودع" من القسم (أعلى يمين الصفحة الرئيسية).