تطبيق استنساخ الصوت
تطبيق Python/Pytorch لتوليف الأصوات البشرية بسهولة

الوثائق
خادم Discord
دليل الفيديو
صوت مشاركة الصوت
الأسئلة الشائعة
متطلبات النظام
- نظام التشغيل Windows 10 أو Ubuntu 20.04+
- مساحة القرص 5 جيجابايت+
- NVIDIA GPU مع ما لا يقل عن 4 جيجابايت من الذاكرة وبرنامج التشغيل الإصدار 456.38+ (اختياري)
الميزات الرئيسية
- توليد مجموعات البيانات التلقائية (بدعم من الترجمة والكتب الصوتية)
- دعم لغة إضافي
- التدريب المحلي والبعيد
- سهلة القطار بدء/توقف
- استيراد البيانات/التصدير
- دعم GPU متعدد
أدلة يدوي
- تثبيت
- بناء مجموعة البيانات
- تمرين
- توليف
- إجراء تغييرات
التحسينات المستقبلية
- أضف دعمًا لـ TalkNet
- إضافة محاذاة GTA لـ HIFI-GAN
- تحسين تقدير حجم الدُفعة
- دعم AMD GPU
موارد أخرى
- دفتر التدريب عن بُعد
- جرب الأصوات الموجودة في uberduck.ai والمفرطات
- جلب بيانات YouTube (تم إنشاؤها بواسطة DISKR33T#5880)
- توليف في كولاب (التي أنشأتها Mega B#6696)
- توليد نسخ على YouTube (تم إنشاؤه بواسطة Mega B#6696)
- wit.ai النسخ
شكر وتقدير
يستخدم هذا المشروع نسخة معاد صياغتها من Tacotron2. جميع حقوق الانتماء إلى Nvidia واتبع متطلبات ترخيص BSD-3.
بالإضافة إلى ذلك ، يستخدم المشروع dsalign و silero و deepspeech & hifi-gan.
شكرا للدكتور جون بوستارد من جامعة كوينز بلفاست لدعمه طوال المشروع.
بدعم من uberduck.ai ، تواصل معهم لاستضافة النماذج المباشرة.
أيضا شكر كبير لأعضاء التخليق الغنائي subreddit لتعليقاتهم.
أخيرًا ، أشكركم على كل شخص يثير القضايا والمساهمة في المشروع.