هذه هي وصفة نموذج النص إلى الكلام الكازاخستاني القائم على كازاختتس و Kazakhtts2 Corpora.
يعتمد الكود الخاص بنا على ESPNET ، ويتطلب التثبيت المسبق للإطار. يرجى اتباع دليل التثبيت ووضع مجلد Kazakhtts داخل espnet/egs2/ الدليل:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
انتقل إلى مجلد Kazah_TTS/TTS1 وإنشاء روابط إلى التبعيات:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
قم بتنزيل مجموعة بيانات Kazahtts و Untern في الدليل الذي تختاره. حدد المسار إلى دليل مجموعة البيانات (حيث توجد DIRS الصوت/النصوص) داخل KazakhTTS/tts1/local/data.sh Script:
db_root=/path-to-speaker-folder
على سبيل المثال db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
لتدريب النماذج KazakhTTS/tts1/ قم بتشغيل البرنامج ./run.sh . يمكن العثور على مواصفات GPU و RAM في مجلد التكوين ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
إذا كنت ترغب في تدريب نماذج Fastspeech/Transformer ، قم بتغيير train_config=conf/train.yaml وفقًا لذلك. يتم توثيق الوصف التفصيلي لكل مرحلة في مستودع ESPNET.
تم تطوير هذا النموذج من قبل معهد الأنظمة الذكية والذكاء الاصطناعي ، جامعة ناصرباييف كازاخستان (من الآن فصاعدا ISSAI).
يرجى استخدام النموذج فقط لسبب وجيه وبطريقة حكيمة. يجب ألا تستخدم النموذج لإنشاء بيانات فاحشة أو مسيئة أو تحتوي على أي تمييز فيما يتعلق بالدين أو الجنس أو العرق أو اللغة أو إقليم المنشأ.
Issai يقدر ويتطلب الإسناد. يجب أن يتضمن الإسناد عنوان الورقة الأصلية والمؤلف واسم المنظمة التي تم بموجبها تطوير النموذج. على سبيل المثال:
Mussakhojayeva ، S. ، Janaliyeva ، A. ، Mirzakhmetov ، A. ، Khassanov ، Y. بروك. Interspeech 2021 ، 2786-2790 ، doi: 10.21437/interspeech.2021-2124. معهد الأنظمة الذكية والذكاء الاصطناعي (ISSAI.NU.EDU.KZ) ، جامعة الناصرة ، كازاخستان
يمكنك توليف نص تعسفي باستخدام البرنامج النصي synthesize.py . تعديل الأسطر التالية في البرنامج النصي:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
الآن يمكنك تشغيل البرنامج النصي باستخدام نص تعسفي ، على سبيل المثال:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
سيتم حفظ الملف الذي تم إنشاؤه في مجلد tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}