تنزيل Fastspeech2_MFA - تنزيل رمز المصدر Fastspeech2

Fastspeech2_MFA

كود الذكاء الاصطناعي

1.0.0

تنزيل

نموذج Fastspeade2 باستخدام MFA

يحتوي هذا المستودع على نموذج سريع لـ 8 لغات هندية (ذكور وإناث كلاهما) تم تنفيذه باستخدام Montreal Abser Aligner (MFA) لتوليف الكلام. النموذج قادر على توليد طيف الميل من مدخلات النص ويمكن استخدامه لتوليف الكلام.

يعد REPO كبيرًا في الحجم: لقد استخدمنا GIT LFS بسبب قيود حجم Github (يرجى تثبيت أحدث GIT LFS من الرابط ، لقد قدمنا الجهاز الحالي أدناه).

 curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install

يتم تحميل ملفات نموذج اللغة باستخدام GIT LFS. لذا يرجى استخدام:

 git lfs fetch --all
git lfs pull

للحصول على الملفات الأصلية في الدليل الخاص بك.

ملفات النموذج

يتضمن النموذج لكل لغة الملفات التالية:

config.yaml : ملف التكوين لنموذج fastspech2.
energy_stats.npz : إحصائيات الطاقة للتطبيع أثناء التوليف.
feats_stats.npz : ميزات إحصائيات للتطبيع أثناء التوليف.
feats_type : الميزات معلومات النوع.
pitch_stats.npz : إحصائيات الملعب للتطبيع أثناء التوليف.
model.pth : أوزان نموذج Fastspeesh2 المدربة مسبقًا.

تثبيت

تثبيت miniconda أولاً. قم بإنشاء بيئة كوندا باستخدام ملف environment.yml المتوفرة.

conda env create -f environment.yml

2. قم بتنشيط بيئة كوندا (تحقق من الداخل. ملف yaml):

conda activate tts-mfa-hifigan

تثبيت Pytorch بشكل منفصل (يمكنك تثبيت الإصدار المحدد بناءً على متطلباتك):

conda install pytorch torchvision cudatoolkit
pip install torchaudio

Vocoder

لإنشاء ملفات WAV من Mel-spectrograms ، يمكنك استخدام Vocoder من اختيارك. أحد الخيارات الشائعة هو Vocoder Hifigan (استنساخ هذا الريبو ووضعه في دليل العمل الحالي). يرجى الرجوع إلى وثائق المتفرج الذي تختاره لتعليمات التثبيت والاستخدام.

(لقد استخدمنا Vocoder Hifigan وقدمنا Vocoder تم ضبطه على لغات Aryan و Dravidian)

الاستخدام

مسارات الدليل نسبية. (قم بإجراء تغييرات على text_preprocess_for_inference.py و inference.py .

يرجى إعطاء اللغة بدءًا من الرسائل الرأسمالية والجنس في حالة صغيرة ونموذج النص بين عروض الأسعار. وسيطة الإخراج اختيارية ؛ سيتم استخدام الاسم المقدم لملف الإخراج.

استخدم ملف الاستدلال لتوليف الكلام من مدخلات النص:

python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >

مثال:

 python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav

سيتم تخزين الملف باسم male_hindi_output.wav وسيكون داخل دليل العمل الحالي. إذا لم يتم تقديم وسيطة output_file ، فسيتم تخزينها على أنها <language>_<gender>_output.wav في دليل العمل الحالي.