تنزيل gmvae_tacotron - تنزيل رمز المصدر gmvae

gmvae_tacotron

كود الذكاء الاصطناعي

1.0.0

تنزيل

GMVAE Tacotron-2:

التنفيذ غير الرسمي لـ TensorFlow للنمذجة التوليدية الهرمية لتوليف الكلام القابل للتحكم

هيكل المستودع:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

تُظهر الشجرة السابقة ما الحالة الحالية للمستودع.

الخطوة (0) : احصل على مجموعة البيانات الخاصة بك ، هنا قمت بتعيين أمثلة على LJSpeech .
الخطوة (1) : معالجة بياناتك المسبقة. هذا سوف يعطيك مجلد التدريب .
الخطوة (2) : تدريب نموذج Tacotron الخاص بك. ينتج عن مجلد سجلات Tacotron .
الخطوة (3) : توليف/تقييم نموذج تاكوترون. يعطي مجلد Tacotron_Output .

متطلبات

أولاً ، تحتاج إلى تثبيت Python 3.5 مع TensorFlow V1.6.

التالي يمكنك تثبيت المتطلبات:

PIP تثبيت -r متطلبات. txt

آخر:

PIP3 تثبيت -RESERES.TXT

مجموعة البيانات:

تم اختبار هذا الريبو على مجموعة بيانات LJSPEEDE ، التي لديها ما يقرب من 24 ساعة من التسجيل الصوتي للممثلة المسمى.

المعالجة المسبقة

قبل تشغيل الخطوات التالية ، يرجى التأكد من أنك داخل مجلد Tacotron-2

CD Tacotron-2

يمكن بعد ذلك البدء في المعالجة المسبقة باستخدام:

Python preprocess.py

أو

Python3 preprocess.py

يمكن اختيار مجموعة البيانات باستخدام وسيطة dataset . الافتراضي هو ljspeech .

تمرين:

يمكن تدريب نموذج التنبؤ بالميزات باستخدام:

Python Train.py -model = 'tacotron'

أو

Python3 Train.py -model = 'tacotron'

توليف

هناك ثلاثة أنواع من توليف طيفي MEL لشبكة التنبؤ الطيفي (Tacotron):

التقييم (تخليق على الجمل المخصصة). هذا ما سنستخدمه عادة بعد وجود نموذج كامل للنهاية.

Python synthesize.py -model = 'tacotron' -mode = 'eval' -resference_audio = 'ref_1.wav'

أو

python3 synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'

ملحوظة:

لم يتم اختبار هذا التنفيذ بشكل كامل لجميع السيناريوهات ولكن التدريب والتوليف مع عمل الصوت المرجعي.
على الرغم من أنه تم اختباره فقط على التوليف بدون GTA ومع وضع eval .
بعد تدريب 250 كيلو خطوة مع حجم 32 دفعة على LJSPEEDE ، استقر خطأ KL بالقرب من Blizzard 2013 voice dataset (حوالي 0.001) لا يحصل على نقل ومراقبة نمط جيد ، قد يكون لأن هذا النموذج مدرب على LJSPEEDE التي لا تمثل مجموعات بيانات معبرة تمامًا ، ولديها فقط من البيانات التي يتم تشغيلها على مدار 24 ساعة.
في الاختبار الخاص بي ، لا أحصل على نتائج جيدة حتى الآن على جانب نقل الأناقة قد يكون بعض التغيير والتبديل ، هذا التنفيذ مدمج بسهولة مع wavenet وكذلك WaveRNN .
لا تتردد في اقتراح بعض التغييرات أو حتى زيادة العلاقات العامة.