تنفيذ Pytorch غير الرسمي لـ Fastspeech 2: النص السريع والعالي الجودة إلى الكلام . يستخدم هذا الريبو تطبيق Fastspeech لـ ESPNET كقاعدة. في هذا التنفيذ ، حاولت تكرار تفاصيل الورق الدقيقة ولكن لا يزال هناك بعض التعديل المطلوب لنموذج أفضل ، هذا الريبو مفتوح لأي اقتراح وتحسين. يستخدم هذا الريبو معالجة Tacotron 2 من Nvidia للمعالجة المسبقة للصوت و Melgan كمتفرج.

جميع الكود المكتوب في Python 3.6.2 .
قبل تثبيت Pytorch ، يرجى التحقق من إصدار CUDA الخاص بك عن طريق تشغيل الأمر التالي:
nvcc --version
pip install torch torchvision
في هذا الريبو ، استخدمت Pytorch 1.6.0 لميزة torch.bucketize التي ليست موجودة في الإصدارات السابقة من Pytorch.
pip install -r requirements.txt
tensorboard version 1.14.0 seperatly مع tensorflow (1.14.0) يحتوي مجلد filelists على ملفات مجموعة بيانات MFA (MotReal Force) التي تمت معالجتها LJSPEEDE حتى لا تحتاج إلى محاذاة نص مع الصوت (لمدة الاستخراج) لمجموعة بيانات LJSPEEDE. لمجموعة البيانات الأخرى اتبع التعليمات هنا. للتشغيل المسبق للمعالجة المسبقة: الأمر التالي:
python .nvidia_preprocessing.py -d path_of_wavs
للعثور على Min و Max من F0 والطاقة
python .compute_statistics.py
قم بتحديث ما يلي في hparams.py بواسطة Min و Max من F0 والطاقة
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"
حاليا فقط التوليف القائم على الصوتيات المدعومة.
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1ts_version2_fastspeech_fe9a2c7_7k_steps.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc
sample . تمرين :
تصديق :
Postnet لتحسين جودة الصوت.