يحتوي هذا المستودع على نموذج سريع لـ 8 لغات هندية (ذكور وإناث كلاهما) تم تنفيذه باستخدام Montreal Abser Aligner (MFA) لتوليف الكلام. النموذج قادر على توليد طيف الميل من مدخلات النص ويمكن استخدامه لتوليف الكلام.
يعد REPO كبيرًا في الحجم: لقد استخدمنا GIT LFS بسبب قيود حجم Github (يرجى تثبيت أحدث GIT LFS من الرابط ، لقد قدمنا الجهاز الحالي أدناه).
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
يتم تحميل ملفات نموذج اللغة باستخدام GIT LFS. لذا يرجى استخدام:
git lfs fetch --all
git lfs pull
للحصول على الملفات الأصلية في الدليل الخاص بك.
يتضمن النموذج لكل لغة الملفات التالية:
config.yaml : ملف التكوين لنموذج fastspech2.energy_stats.npz : إحصائيات الطاقة للتطبيع أثناء التوليف.feats_stats.npz : ميزات إحصائيات للتطبيع أثناء التوليف.feats_type : الميزات معلومات النوع.pitch_stats.npz : إحصائيات الملعب للتطبيع أثناء التوليف.model.pth : أوزان نموذج Fastspeesh2 المدربة مسبقًا. environment.yml المتوفرة. conda env create -f environment.yml2. قم بتنشيط بيئة كوندا (تحقق من الداخل. ملف yaml):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudioلإنشاء ملفات WAV من Mel-spectrograms ، يمكنك استخدام Vocoder من اختيارك. أحد الخيارات الشائعة هو Vocoder Hifigan (استنساخ هذا الريبو ووضعه في دليل العمل الحالي). يرجى الرجوع إلى وثائق المتفرج الذي تختاره لتعليمات التثبيت والاستخدام.
(لقد استخدمنا Vocoder Hifigan وقدمنا Vocoder تم ضبطه على لغات Aryan و Dravidian)
مسارات الدليل نسبية. (قم بإجراء تغييرات على text_preprocess_for_inference.py و inference.py .
يرجى إعطاء اللغة بدءًا من الرسائل الرأسمالية والجنس في حالة صغيرة ونموذج النص بين عروض الأسعار. وسيطة الإخراج اختيارية ؛ سيتم استخدام الاسم المقدم لملف الإخراج.
استخدم ملف الاستدلال لتوليف الكلام من مدخلات النص:
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >مثال:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
سيتم تخزين الملف باسم male_hindi_output.wav وسيكون داخل دليل العمل الحالي. إذا لم يتم تقديم وسيطة output_file ، فسيتم تخزينها على أنها <language>_<gender>_output.wav في دليل العمل الحالي.
إذا كنت تستخدم نموذج Fastspeade2 في بحثك أو عملك ، فيرجى التفكير في:
"حقوق الطبع والنشر لعام 2023 ، اتحاد تكنولوجيا الكلام ، بهاشيني ، ميتي و Hema A Murthy & S Umesh ، قسم علوم الكمبيوتر والهندسة والهندسة الكهربائية ، IIT Madras. جميع الحقوق محفوظة"
درع:
هذا العمل مرخص له بموجب ترخيص Creative Commons Attribution 4.0 الدولي.