تنزيل Parallel Tacotron2 - تنزيل رمز المصدر Parallel Tacotron2

Parallel Tacotron2

كود الذكاء الاصطناعي

1.0.0

تنزيل

موازي تاكوتون 2

تنفيذ Pytorch من Google Tacotron 2: نموذج TTS العصبي غير التوت مع نمذجة مدة قابلة للتمييز

التحديثات

2021.05.25: Only the soft-DTW remains the last hurdle! بعد نصيحة المؤلف بشأن التنفيذ ، أجريت عدة اختبارات على كل وحدة واحدة تلو الأخرى تحت إشارة مدة خاضعة للإشراف مع فقدان L1 (Fastspeade2). حتى الآن ، يمكنني أن أؤكد أن جميع الوحدات باستثناء Soft-DTW تعمل بشكل جيد كما يلي (الطيف المركب ، طيفية GT ، المحاذاة المتبقية ، و W من existrupsampling من أعلى إلى أسفل).
للحصول على التفاصيل ، يرجى التحقق من أحدث سجل الالتزام وقسم مشكلات التنفيذ المحدثة. أيضًا ، يمكنك العثور على التجارب المستمرة على https://github.com/keonlee9420/fastspeade2/commits/ptaco2.
2021.05.15: تنفيذ. العقلانية يتحقق من التدريب والاستدلال. ولكن لا يزال النموذج لا يمكن أن يتلاقى.
I'm waiting for your contribution! يرجى إبلاغي إذا وجدت أي أخطاء في تنفيذي أو أي نصيحة قيمة لتدريب النموذج بنجاح. انظر قسم قضايا التنفيذ.

تمرين

متطلبات

يمكنك تثبيت تبعيات Python مع
```
pip3 install -r requirements.txt
```
قم بتثبيت FairSeq (المستند الرسمي ، Github) لاستخدام LConvBlock . يرجى التحقق من #5 لحل أي مشكلة عند التثبيت.

مجموعات البيانات

مجموعات البيانات المدعومة:

LJSPEEDE: تتكون مجموعة بيانات إنجليزية واحدة من 13100 مقاطع صوتية قصيرة من ممرات متحدثة من 7 كتب غير خيالية ، حوالي 24 ساعة في المجموع.
(سيتم إضافة المزيد)

المعالجة المسبقة

بعد تنزيل مجموعات البيانات ، قم بتعيين corpus_path في preprocess.yaml وقم بتشغيل برنامج التحضير:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

ثم ، قم بتشغيل البرنامج النصي المسبق:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

تمرين

تدريب النموذج الخاص بك مع

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

لا يمكن أن يتقارب النموذج بعد. أنا أخطئ في التصحيح ولكن سيتم تعزيزه إذا كانت مساهمتك الرائعة جاهزة!

الاستدلال

لاستنتاج واحد ، قم بالتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

سيتم حفظ الكلمات المولدة في output/result/ .

استنتاج الدُفعات

يتم دعم استنتاج الدُفعات أيضًا ، حاول

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

لتوليف جميع الكلمات في preprocessed_data/LJSpeech/val.txt .

Tensorboard

يستخدم

 tensorboard --logdir output/log/LJSpeech

لخدمة Tensorboard على مضيفك المحلي.

قضايا التنفيذ

بشكل عام ، يتم ترتيب التطبيع أو التنشيط ، الذي لا يتم اقتراحه في الورقة الأصلية ، بشكل كاف لمنع قيمة NAN (التدرج) على الحسابات الأمامية والخلف. (تشير نان إلى أن هناك خطأ ما في الشبكة)

تشفير النص

استخدم FFTBlock من fastspeade2 لكتلة المحولات من تشفير النص.
استخدام التسرب 0.2 ل ConvBlock من تشفير النص.
لاستعادة "محرك تطبيع الملكية" ،
- تطبيق نفس النص تطبيع كما في Fastspeade2.
- تنفيذ وظيفة grapheme_to_phoneme . (انظر ./text/ init ).

المشفر المتبقي

استخدم 80 channels Mel-spectrogrom بدلاً من 128-bin .
يتم استخدام التضمين الموضعي الجيبي المنتظم في مستوى الإطار بدلاً من مجموعات من ثلاثة تضمينات موضعية في تاكوترون متوازي. نظرًا لأن النموذج يعتمد تمامًا على التعلم غير الخاضع للإشراف لهذا المنصب ، يمكن أن يكون هذا الاختيار سببًا للفشل في التقارب النموذج.

تنبؤ المدة والتعلم

استخدم nn.SiLU() لتفعيل Swish.
عند الحصول على W و C ، يتم تطبيق عملية التسلسل بين S و E و V بعد إطار المجال (المجال T) من V

فك التشفير

استخدام LConvBlock والتضمين الموضعية الجيبية العادية.
يتم عرض طيف الميل التكراري بواسطة طبقة خطية.
قم بتطبيق nn.Tanh() على كل إخراج LConvBLock (بعد نمط التنشيط لجزء وحدة فك الترميز في Fastspeech2).

خسارة

استخدم التحسين وجدولة Fastspeade2 (وهو من الانتباه هو كل ما تحتاجه كما هو موضح في الورقة الأصلية).
قاعدة على pytorch-softdtw-cuda (post) لـ Soft-DTW.
1. قم بتنفيذ Soft-DTW مخصص في model/soft_dtw_cuda.py ، مما يعكس العودية المقترحة في الورقة الأصلية.
2. في Soft-DTW الأصلي ، لا يتم افتراض الخسارة النهائية وبالتالي يتم حساب E فقط. ولكن يتم استخدامه كدالة خسارة ، يتم إضافة منتج يعقوبي لإرجاع المشتق المستهدف من إدخال R WRT X
3. حاليًا ، يبلغ حجم الدُفعة الحد الأقصى 8 في GPU 24GIB (TITAN RTX) بسبب مشكلة تعقيد الفضاء في فقدان SOFT-DTW.
  - في الورقة الأصلية ، تم تنفيذ عملية النطاق القطري المخصص المخصص واستخدامها لحل تعقيد O (t^2) ، ولكن لم يتم استكشاف هذا الجزء في التنفيذ الحالي حتى الآن.

اقتباس

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}