؟ مقبولة في ICASSP 2023
تتطور أنظمة النص إلى التعلم العميق (TTS) بشكل سريع مع التقدم في البنية النموذجية ومنهجيات التدريب والتعميم عبر المتحدثين واللغات. ومع ذلك ، لم يتم التحقيق في هذه التطورات بدقة لتوليف الكلام اللغوي الهندي. مثل هذا التحقيق مكلف حسابيًا نظرًا لعدد وتنوع اللغات الهندية ، وتوافر الموارد المنخفض نسبيًا ، ومجموعة متنوعة من التطورات في TTS العصبية التي لا تزال غير مختبرة. في هذه الورقة ، نقوم بتقييم اختيار النماذج الصوتية ، والمركبات ، ووظائف الخسارة التكميلية ، وجداول التدريب ، وتنوع المتحدثين والتنوع اللغوي للغات الدرافيدية والهندانية. بناءً على ذلك ، نحدد النماذج أحادية اللغة مع FastPitch و HIFI-GAN V1 ، تدرب بشكل مشترك على مكبرات الصوت من الذكور والإناث لأداء الأفضل. مع هذا الإعداد ، نقوم بتدريب نماذج TTS وتقييمها لـ 13 لغة ونجد نماذجنا لتحسين النماذج الحالية بشكل كبير بجميع اللغات كما تم قياسها بواسطة درجات الرأي المتوسطة. نحن مفتوحة المصدر جميع النماذج على منصة Bhashini.
TL ؛ DR: نحن نماذج نصية من SOTA OPENS OPENS لـ 13 لغة هندية: الأسامية ، البنغالية ، بودو ، غوجاراتي ، الهندية ، الكانادا ، المالايالام ، مانيبوري ، ماراثي ، أوديا ، راجاستاني ، تاميل وتيلوغو .
المؤلفون: Gokul Karthik Kumar*، Praveen SV*، Pratyush Kumar ، Mitesh M. Khapra ، Karthik Nandakumar
[Arxiv preprint] [عينات صوتية] [جربها على الهواء مباشرة] [فيديو]


# 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env
# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer
cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py
# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS
cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis
# 5. Install other requirements
> pip3 install -r requirements.txt
sh run.shيمكن تنزيل وزن النموذج المدربين وملفات التكوين في هذا الرابط.
python3 -m TTS.bin.synthesize --text <TEXT>
--model_path <LANG>/fastpitch/best_model.pth
--config_path <LANG>/config.json
--vocoder_path <LANG>/hifigan/best_model.pth
--vocoder_config_path <LANG>/hifigan/config.json
--out_path <OUT_PATH>
مرجع الرمز: https://github.com/coquii-ai/tts