تنزيل FastSpeech2 - تنزيل رمز المصدر FastSpeech2

FastSpeech2

كود الذكاء الاصطناعي

1.0.0

تنزيل

Fastspeech 2

تنفيذ Pytorch غير الرسمي لـ Fastspeech 2: النص السريع والعالي الجودة إلى الكلام . يستخدم هذا الريبو تطبيق Fastspeech لـ ESPNET كقاعدة. في هذا التنفيذ ، حاولت تكرار تفاصيل الورق الدقيقة ولكن لا يزال هناك بعض التعديل المطلوب لنموذج أفضل ، هذا الريبو مفتوح لأي اقتراح وتحسين. يستخدم هذا الريبو معالجة Tacotron 2 من Nvidia للمعالجة المسبقة للصوت و Melgan كمتفرج.

العرض التوضيحي:

متطلبات :

جميع الكود المكتوب في Python 3.6.2 .

تثبيت Pytorch

قبل تثبيت Pytorch ، يرجى التحقق من إصدار CUDA الخاص بك عن طريق تشغيل الأمر التالي: nvcc --version

 pip install torch torchvision

في هذا الريبو ، استخدمت Pytorch 1.6.0 لميزة torch.bucketize التي ليست موجودة في الإصدارات السابقة من Pytorch.

تثبيت المتطلبات الأخرى:

 pip install -r requirements.txt

لاستخدام Tensorboard تثبيت tensorboard version 1.14.0 seperatly مع tensorflow (1.14.0)

للمعالجة المسبقة:

يحتوي مجلد filelists على ملفات مجموعة بيانات MFA (MotReal Force) التي تمت معالجتها LJSPEEDE حتى لا تحتاج إلى محاذاة نص مع الصوت (لمدة الاستخراج) لمجموعة بيانات LJSPEEDE. لمجموعة البيانات الأخرى اتبع التعليمات هنا. للتشغيل المسبق للمعالجة المسبقة: الأمر التالي:

 python .nvidia_preprocessing.py -d path_of_wavs

للعثور على Min و Max من F0 والطاقة

 python .compute_statistics.py

قم بتحديث ما يلي في hparams.py بواسطة Min و Max من F0 والطاقة

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

للتدريب

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

للاستنتاج

حاليا فقط التوليف القائم على الصوتيات المدعومة.

 python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1ts_version2_fastspeech_fe9a2c7_7k_steps.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."

لتصدير Torchscript

 python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc

نقطة التفتيش والعينات:

نقطة التفتيش العثور هنا
للعينات ، تحقق من مجلد sample .

Tensorboard

تمرين :
Tensorboard
تصديق :

ملحوظة

يتم ترميز هذا الريبو تقريبًا فقط لإعادة إنتاج الغرض من الورق والتجريب. احتاج إلى تنظيف رمز و Opyimization لاستخدام أفضل.
في الوقت الحالي ، ينتج هذا الريبو صوتًا جيدًا ولكنه لا يزال في WIP ، والكثير من التحسينات اللازمة.
منحنى الخسارة لـ F0 مرتفع جدًا.
أنا أستخدم F0 Raw و Energy لتدريب النموذج ، لكن يمكننا أيضًا استخدام تطبيع F0 والطاقة للتدريب المستقر.
باستخدام Postnet لتحسين جودة الصوت.
للحصول على أدوات أكثر اكتمالا ونهاية الاستنساخ الصوتي أو النص إلى الكلام (TTS) أدوات ⚡ يرجى زيارة Technologies DeepSync.