تنزيل PortaSpeech - تنزيل رمز مصدر PortaSpeech

PortaSpeech

كود الذكاء الاصطناعي

v0.2.0

تنزيل

PORTASPEEDE - PYTORch

تنفيذ Pytorch من portaspeech: محمول وعالي الجودة النص إلى الكلام.

عينات الصوت

عينات الصوت متوفرة في /العرض التوضيحي.

حجم النموذج

الوحدة النمطية	طبيعي	صغير	عادي (ورقة)	صغير (ورقة)
المجموع	24m	7.6m	21.8 م	6.7m
اللغوي	3.7m	1.4m	-	-
variationalgenerator	11 م	2.8 م	-	-
FlowPostnet	9.3m	3.4m	-	-

Quickstart

تشير مجموعة البيانات إلى أسماء مجموعات البيانات مثل LJSpeech في المستندات التالية.

التبعيات

يمكنك تثبيت تبعيات Python مع

 pip3 install -r requirements.txt

أيضا ، يتم توفير Dockerfile لمستخدمي Docker .

الاستدلال

يجب عليك تنزيل النماذج المسبقة ووضعها في output/ckpt/DATASET/ .

للحصول على TTS واحد ، قم بتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

سيتم وضع الكلمات المولدة في output/result/ .

استنتاج الدُفعات

يتم دعم استنتاج الدُفعات أيضًا ، حاول

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

لتوليف جميع الكلمات في preprocessed_data/DATASET/val.txt .

قابلية التحكم

يمكن السيطرة على معدل التحدث للكلمات التوليف من خلال تحديد نسب المدة المطلوبة. على سبيل المثال ، يمكن للمرء زيادة معدل التحدث بمقدار 20

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

يرجى ملاحظة أن قابلية التحكم نشأت من Fastspeesh2 وليس مصلحة حيوية لـ PortAspeech.

تمرين

مجموعات البيانات

مجموعات البيانات المدعومة

LJSPEEDE: تتكون مجموعة بيانات إنجليزية واحدة من 13100 مقاطع صوتية قصيرة من ممرات متحدثة من 7 كتب غير خيالية ، حوالي 24 ساعة في المجموع.

المعالجة المسبقة

يجري

 python3 prepare_align.py --dataset DATASET

لبعض الاستعدادات.

بالنسبة للمحاذاة القسرية ، يتم استخدام Montreal القسري Aligner (MFA) للحصول على المحاذاة بين الكلمات وتسلسلات الصوت. يتم توفير محاذاة مسبقًا لمجموعات البيانات هنا. يجب عليك إلغاء ضغط الملفات في preprocessed_data/DATASET/TextGrid/ . بالتناوب ، يمكنك تشغيل جهاز Aligner بنفسك.

بعد ذلك ، قم بتشغيل البرنامج النصي المسبق

 python3 preprocess.py --dataset DATASET

تمرين

تدريب النموذج الخاص بك مع

 python3 train.py --dataset DATASET

خيارات مفيدة:

لاستخدام الدقة المختلطة التلقائية ، قم بإلحاق الوسيطة --use_amp إلى الأمر أعلاه.
يفترض المدرب تدريبًا واحدًا من العقد المتعددة GPU. لاستخدام وحدات معالجة الرسومات المحددة ، حدد CUDA_VISIBLE_DEVICES=<GPU_IDs> في بداية الأمر أعلاه.

Tensorboard

يستخدم

 tensorboard --logdir output/log

لخدمة Tensorboard على مضيفك المحلي. يتم عرض منحنيات الخسارة ، وتوليف الطيف الطيف ، والسمعات.

نموذج عادي

خسارة نموذج صغيرة

ملحوظات

بالنسبة للمركبات ، يتم دعم HIFI-GAN و MELGAN .
لا تنشيط إعادة تنشيط و layernorm في endiationalgenerator لتجنب الإخراج المهروس.
قم بتسريع تقارب محاذاة Word-to-Phoneme في اللغوي من خلال تقسيم الكلمات الطويلة إلى الكلمات الفرعية وفرز مجموعة البيانات بطول إطار طيف MEL.
هناك نوعان من خسارة المساعد لتحسين محاذاة كلمة إلى phoneme: "CTC" و "DGA". يمكنك تبديلهم على النحو التالي:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": خسارة الانتباه الموجهة قطريًا (DGA)
- "CTC": فقدان التصنيف الزمني للاتصال (CTC) مع خوارزمية الأمامية
- إذا قمت بتعيين "لا شيء" ، فلن يتم تطبيق أي خسارة المساعد أثناء التدريب.
- مقارنة محاذاة ثلاث طرق ("DGA" و "CTC" و "لا شيء" من أعلى إلى أسفل):
- الإعداد الافتراضي هو "DGA". على الرغم من أن "CTC" تصنع أقوى محاذاة ، إلا أن جودة الإخراج والدقة أسوأ من "DGA".
- ولكن لا يزال ، هناك مجال لتحسين جودة الإخراج. يبدو أن جودة الصوت والتخليط (الدقة) بمثابة مفاضلة.
سيتم تمديدها إلى TTS متعددة المتحدثين .