هذا هو تطبيق Tensorflow للصوت العميق 3: 2000 مكبر الصوت العصبي إلى الكلام. في الوقت الحالي ، نركز فقط على تخليق المتحدث الفردي.
مجموعة بيانات الكلام LJ
قم بتنزيل وفك ضغط مجموعة بيانات الكلام LJ. يجري:
python prepro.py
ملاحظة: تأكد من عدم الضغط على مجموعة البيانات في نفس Foler of prepro.py .
بعد ذلك ، سنحصل على ثلاثة مجلدات جديدة:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
./LJSpeech-1.0/dones تحميل بيانات التدريب من ./LJSpeech-1.0/metadata.csv ./LJSpeech-1.0/mags ./LJSpeech-1.0/mels إذا أردنا تغيير مسار التحميل ، فيمكننا تغيير التكوين في class Hyperparams .
لتدريب النموذج ، نستخدم هذا الأمر:
python train.py
حاليا ، لا يمكننا الحصول على نتيجة جيدة. ومع ذلك ، ما زلنا نقدم نموذجنا المسبق قبل التدريب في حالة اهتمام شخص ما به.
نموذج تدريب مسبقًا.
شكل انتباهه كما يلي:
يتم تضمين جميع أرقام الاهتمام التي تم إنشاؤها في التدريب في ملف النموذج المضغوط مسبقًا.
يتم استعارة معظم الكود من Kyubyong/DeepVoice3.