الصوتية fastspeech2 (مخصص)
أداء معقول من خلال استخدام التعلم النقل للتخصيص مع كميات صغيرة من البيانات
قم بتوفير واجهات برمجة التطبيقات التي يمكن إنشاؤها باستخدام مجموعة البيانات الكورية في الوقت الفعلي في الوقت الفعلي
تعديل رمز النموذج وفقًا للضبط
سهلة المعالجة المسبقة ، القطار ، التوليف من خلال نص شل
توفير صورة Docker فريدة من نوعها
يطابق اسم ملف Fastspeade2 و CKPT الذي تم تدريبه مسبقًا ويحتفظ به في كل طراز.
(Fastspeech2: 30،000 خطوة التعلم / HIFI -GAN -Jungil King الرسمي المذريعة -الجامعة -الجامعة) الجامعة)
للتعلم والتوليف ، نقوم بتحميل وتنفيذ صور Docker التي تحتوي على جميع الحزم التابعة.
docker pull hws0120/e2e_speech_synthesis
RUN_FS2_PREPROCESSING.SH تتصل خطوات Docker بأمر Conda ويقوم بتثبيت Python Package Jamo.
conda activate aligner
pip install jamo
نهاية البيئة الافتراضية لأداء Run_FS2_Train أو التوليف.
conda activate base
إذا قابلت جميع العناصر المذكورة أعلاه ، قم بتشغيل البرنامج النصي Shell لاستخراج MFA.
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
ينشئ بنجاح مجموعة نصية للخروج من البيئة الافتراضية وتشغيل البرنامج النصي التعليمي.
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
عند الانتهاء من التعلم Fastspeech2 5000 ، قم بتشغيل البرنامج النصي HIFI.
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
عندما يكون نموذج تعلم في مجلد CKPT جاهزًا ، قم بتشغيل نص لتوليف.
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
يتم إنشاء كل حاوية في عملية التعلم والتوليف والعملية كما هو موضح.
إذا كان لديك نقطة تفتيش مناسبة من HIFI ، فيمكنك حذف تعلم HIFI.