تنفيذ Pytorch غير رسمي لـ Lightspeech: نص خفيف وسريع إلى الكلام مع البحث عن العمارة العصبية. يستخدم هذا الريبو تنفيذ Fastspeech 2 لـ ESPNET كقاعدة. هذا الريبو ينفذ فقط الإصدار النهائي من نموذج Lightspeech وليس البحث عن العمارة العصبية كما هو مذكور في الورق.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
جميع الكود المكتوب في Python 3.6.2 .
قبل تثبيت Pytorch ، يرجى التحقق من إصدار CUDA الخاص بك عن طريق تشغيل الأمر التالي:
nvcc --version
pip install torch torchvision
في هذا الريبو ، استخدمت Pytorch 1.6.0 لميزة torch.bucketize التي ليست موجودة في الإصدارات السابقة من Pytorch.
pip install -r requirements.txt
tensorboard version 1.14.0 seperatly مع tensorflow (1.14.0) يحتوي مجلد filelists على ملفات مجموعة بيانات MFA (MotReal Force) المعالجة LJSpeech بحيث لا تحتاج إلى محاذاة نص مع الصوت (لمدة الاستخراج) لمجموعة بيانات LJSPEEDE. لمجموعة البيانات الأخرى اتبع التعليمات هنا. للتشغيل المسبق للمعالجة المسبقة: الأمر التالي:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
للعثور على Min و Max من F0 والطاقة
python .compute_statistics.py
قم بتحديث ما يلي في hparams.py بواسطة Min و Max من F0 والطاقة
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
WIP
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc