Ini adalah resep model teks-ke-speech Kazakh berdasarkan Kazakhtts dan Kazakhtts2 Corpora.
Kode kami dibangun di atas ESPNET, dan membutuhkan pemasangan kerangka kerja sebelumnya. Harap ikuti panduan instalasi dan letakkan folder Kazakhtts di dalam espnet/egs2/ Direktori:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Pergi ke folder Kazakh_TTS/TTS1 dan buat tautan ke dependensi:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Unduh dataset Kazakhtts dan untar di direktori pilihan Anda. Tentukan jalur ke direktori dataset (di mana Dir audio/transkrip berada) di dalam skrip KazakhTTS/tts1/local/data.sh :
db_root=/path-to-speaker-folder
Misalnya db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Untuk melatih model, jalankan skrip ./run.sh di dalam KazakhTTS/tts1/ folder. Spesifikasi GPU dan RAM dapat ditemukan di folder konfigurasi ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Jika Anda ingin melatih model FastSpeech/Transformer, ubah train_config=conf/train.yaml . Deskripsi terperinci dari setiap tahap didokumentasikan dalam repositori ESPNet.
Model ini dikembangkan oleh Institute of Smart Systems dan Kecerdasan Buatan, Universitas Nazarbayev Kazakhstan (selanjutnya Issai).
Harap gunakan model hanya untuk tujuan yang baik dan dengan cara yang bijaksana. Anda tidak boleh menggunakan model untuk menghasilkan data yang cabul, ofensif, atau mengandung diskriminasi apa pun sehubungan dengan agama, jenis kelamin, ras, bahasa atau wilayah asal.
Issai menghargai dan membutuhkan atribusi. Atribusi harus mencakup judul makalah asli, penulis, dan nama organisasi di mana pengembangan model berlangsung. Misalnya:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, Ha (2021) Kazakhtts: Dataset sintesis teks-ke-speech sumber terbuka. Proc. Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. Institut Sistem Cerdas dan Kecerdasan Buatan (Issai.nu.edu.kz), Universitas Nazarbayev, Kazakhstan
Anda dapat mensintesis teks sewenang -wenang menggunakan synthesize.py Script. Ubah baris berikut dalam skrip:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Sekarang Anda dapat menjalankan skrip menggunakan teks sewenang -wenang, misalnya:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
File yang dihasilkan akan disimpan di folder tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}