text2speech Download - text2speech Source Code Download

text2speech

كود الذكاء الاصطناعي

1.0.0

تنزيل

نحو إنشاء أنظمة النص إلى كلام للمليار التالي

؟ مقبولة في ICASSP 2023

تتطور أنظمة النص إلى التعلم العميق (TTS) بشكل سريع مع التقدم في البنية النموذجية ومنهجيات التدريب والتعميم عبر المتحدثين واللغات. ومع ذلك ، لم يتم التحقيق في هذه التطورات بدقة لتوليف الكلام اللغوي الهندي. مثل هذا التحقيق مكلف حسابيًا نظرًا لعدد وتنوع اللغات الهندية ، وتوافر الموارد المنخفض نسبيًا ، ومجموعة متنوعة من التطورات في TTS العصبية التي لا تزال غير مختبرة. في هذه الورقة ، نقوم بتقييم اختيار النماذج الصوتية ، والمركبات ، ووظائف الخسارة التكميلية ، وجداول التدريب ، وتنوع المتحدثين والتنوع اللغوي للغات الدرافيدية والهندانية. بناءً على ذلك ، نحدد النماذج أحادية اللغة مع FastPitch و HIFI-GAN V1 ، تدرب بشكل مشترك على مكبرات الصوت من الذكور والإناث لأداء الأفضل. مع هذا الإعداد ، نقوم بتدريب نماذج TTS وتقييمها لـ 13 لغة ونجد نماذجنا لتحسين النماذج الحالية بشكل كبير بجميع اللغات كما تم قياسها بواسطة درجات الرأي المتوسطة. نحن مفتوحة المصدر جميع النماذج على منصة Bhashini.

TL ؛ DR: نحن نماذج نصية من SOTA OPENS OPENS لـ 13 لغة هندية: الأسامية ، البنغالية ، بودو ، غوجاراتي ، الهندية ، الكانادا ، المالايالام ، مانيبوري ، ماراثي ، أوديا ، راجاستاني ، تاميل وتيلوغو .

المؤلفون: Gokul Karthik Kumar*، Praveen SV*، Pratyush Kumar ، Mitesh M. Khapra ، Karthik Nandakumar

[Arxiv preprint] [عينات صوتية] [جربها على الهواء مباشرة] [فيديو]

الهندسة المعمارية الموحدة لنظام TTS لدينا

نتائج

يثبت:

إعداد البيئة:

 # 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env

# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer 

cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch 
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py

# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS 

cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis

# 5. Install other requirements
> pip3 install -r requirements.txt

إعداد البيانات:

تنسيق مجموعة بيانات DataSts في تنسيق LJSPEEDE باستخدام المعالجة المسبقة/التنسيقات.
تحليل مجموعة بيانات الاتهام للتحقق من ملاءمة TTS باستخدام المعالجة المسبقة/analyzedataset.ipynb

خطوات التدريب:

اضبط التكوين باستخدام Main.py و Vocoder.py و Config و Run.sh. تأكد من تحديث CUDA_VISIBLE_DEVICES في كل هذه الملفات.
تدريب واختبار عن طريق تنفيذ sh run.sh

الاستدلال:

يمكن تنزيل وزن النموذج المدربين وملفات التكوين في هذا الرابط.

 python3 -m TTS.bin.synthesize --text <TEXT> 
    --model_path <LANG>/fastpitch/best_model.pth 
    --config_path <LANG>/config.json 
    --vocoder_path <LANG>/hifigan/best_model.pth 
    --vocoder_config_path <LANG>/hifigan/config.json 
    --out_path <OUT_PATH>

مرجع الرمز: https://github.com/coquii-ai/tts

يوسع

معلومات إضافية