fastVC
1.0.0
FARTVC هي أداة سريعة وفعالة وغير موازنة وأي شيء إلى أي صوت (VC) . يتضمن VC تعديل صوت مكبر الصوت المصدر لجعله يبدو وكأنه مكبر صوت مستهدف ، دون تغيير المحتوى اللغوي للجمل. تستغل أدائنا المهمة من خلال تجميع نموذج التعرف على الكلام التلقائي (ASR) ونص نص على الكلام (TTS).

يعتمد ASR على WAV2VEC 2.0 ويستخدم لنسخ الكلام من مكبر الصوت المصدر. يعتمد TTS على SV2TTS ويستخدم لإنشاء خطاب الإخراج من مكبر صوت مستهدف.
للحصول على شرح أكثر تفصيلاً ، تحقق من ورقة مشروعنا. صفحة تجريبية متوفرة هنا.
تم تنفيذ البرنامج باستخدام python 3.9.4
git clone https://github.com/fmiotello/fastVC.git ) وأدخل الدليل ( cd fastVC )python -m venv env و source env/bin/activate (إذا كنت تستخدم macos/linux) أو .envScriptsactivatepython -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (استخدم --help لعرض الخيارات المتاحة). سيكون صوت الإخراج ./src/audio/audio_out.wav .يمكن العثور على المزيد من التعليمات هنا.
تم تطوير هذا التطبيق كمشروع في Politecnico di Milano (MSC في الموسيقى والهندسة الصوتية).
لويجي أتوريسي
فيديريكو ميتيلو
يوجينيو بوليوتي