SC-CNN: طريقة تكييف مكبرات الصوت الفعالة لأنظمة نص إلى خطاب متعدد اللقطات صفرية
بفضل STYLESPEEDE و FITS ، قمنا ببناء رموزنا بناءً على الارتباط والرابط
- يتم استخدام مجموعة بيانات VCTK.
- يتم تعيين معدل أخذ العينات على 22050Hz.
- هذا هو تنفيذ
SC-TransferTTS
مواد
المتطلبات الأساسية
- استنساخ هذا المستودع.
- تثبيت متطلبات بيثون. يرجى إحالة المتطلبات. txt
- قد تحتاج إلى تثبيت espeak أولاً:
apt-get install espeak
- قم بتنزيل مجموعات البيانات
- قم بتنزيل واستخراج مجموعة بيانات VCTK ، وملفات WAV Downsample إلى 22050 هرتز. ثم أعد تسمية أو إنشاء رابط إلى مجلد مجموعة البيانات:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- قم ببناء البحث في محاذاة رتيب وتشغيل المعالجة المسبقة إذا كنت تستخدم مجموعات البيانات الخاصة بك.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
تدريب exmaple
python train.py -c configs/vctk_base.json -m vctk_base
مثال الاستدلال
انظر الاستدلال