นี่คือสูตรของโมเดลข้อความเป็นคำพูดของคาซัคห์ตามคาซัคท์และคาซัคต์ต์ต์ส 2
รหัสของเราสร้างขึ้นเมื่อ ESPNET และต้องมีการติดตั้งเฟรมเวิร์กก่อน โปรดติดตามคู่มือการติดตั้งและวางโฟลเดอร์ Kazakhtts ไว้ใน espnet/egs2/ DIRECTORY:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
ไปที่โฟลเดอร์ Kazakh_TTS/TTS1 และสร้างลิงก์ไปยังการอ้างอิง:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
ดาวน์โหลดชุดข้อมูล Kazakhtts และ UntAR ในไดเรกทอรีที่คุณเลือก ระบุพา ธ ไปยังไดเรกทอรีชุดข้อมูล (โดยที่เสียง/การถอดเสียงอยู่) ภายใน KazakhTTS/tts1/local/data.sh สคริปต์:
db_root=/path-to-speaker-folder
ตัวอย่างเช่น db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
ในการฝึกอบรมโมเดลให้เรียกใช้สคริปต์ ./run.sh ภายใน KazakhTTS/tts1/ โฟลเดอร์ ข้อมูลจำเพาะ GPU และ RAM สามารถพบได้ในโฟลเดอร์การกำหนดค่า ( conf/ )
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
หากคุณต้องการฝึกอบรมรุ่น FastSpeech/Transformer ให้เปลี่ยน train_config=conf/train.yaml คำอธิบายโดยละเอียดของแต่ละขั้นตอนมีการบันทึกไว้ในที่เก็บของ ESPNET
แบบจำลองนี้ได้รับการพัฒนาโดยสถาบันระบบอัจฉริยะและปัญญาประดิษฐ์มหาวิทยาลัยนาซาร์เบย์ฟคาซัคสถาน (ต่อจากนี้ไป ISSAI)
โปรดใช้แบบจำลองสำหรับสาเหตุที่ดีและในลักษณะที่ชาญฉลาด คุณต้องไม่ใช้แบบจำลองเพื่อสร้างข้อมูลที่ลามกอนาจารไม่เหมาะสมหรือมีการเลือกปฏิบัติใด ๆ เกี่ยวกับศาสนาเพศเชื้อชาติภาษาหรือดินแดนแหล่งกำเนิด
Issai ชื่นชมและต้องการการระบุแหล่งที่มา การระบุแหล่งที่มาควรรวมถึงชื่อของบทความต้นฉบับผู้แต่งและชื่อขององค์กรภายใต้การพัฒนาของแบบจำลองที่เกิดขึ้น ตัวอย่างเช่น:
Mussakhojayeva, S. , Janaliyeva, A. , Mirzakhmetov, A. , Khassanov, Y. , Varol, HA (2021) Kazakhtts: ชุดข้อมูลการสังเคราะห์แบบโอเพ่นซอร์ส Proc. Interspeech 2021, 2786-2790, DOI: 10.21437/Interspeech.2021-2124 สถาบันระบบอัจฉริยะและปัญญาประดิษฐ์ (issai.nu.edu.kz), มหาวิทยาลัย Nazarbayev, คาซัคสถานคาซัคสถาน
คุณสามารถสังเคราะห์ข้อความโดยพลการโดยใช้สคริปต์ synthesize.py แก้ไขบรรทัดต่อไปนี้ในสคริปต์:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
ตอนนี้คุณสามารถเรียกใช้สคริปต์โดยใช้ข้อความโดยพลการเช่น:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
ไฟล์ที่สร้างขึ้นจะถูกบันทึกไว้ในโฟลเดอร์ tts1/synthesized_wavs
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}