이것은 Kazakhtts와 Kazakhtts2 Corpora를 기반으로 한 Kazakh 텍스트 음성 변환 모델의 레시피입니다.
우리의 코드는 ESPNET을 기반으로하며 프레임 워크의 사전 설치가 필요합니다. 설치 안내서를 따르고 espnet/egs2/ 디렉토리에 Kazakhtts 폴더를 넣으십시오.
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Kazakh_tts/TTS1 폴더로 이동하여 종속성에 대한 링크를 만듭니다.
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
선택한 디렉토리에서 Kazakhtts 데이터 세트와 Untar를 다운로드하십시오. KazakhTTS/tts1/local/data.sh 스크립트 내부의 데이터 세트 디렉토리 (오디오/전 사체가 위치한 위치)의 경로를 지정하십시오.
db_root=/path-to-speaker-folder
예를 들어 db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
모델을 훈련 시키려면 KazakhTTS/tts1/ 폴더 내부에서 스크립트 ./run.sh 실행하십시오. GPU 및 RAM 사양은 구성 ( conf/ ) 폴더에서 찾을 수 있습니다.
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
FastSpeech/Transformer 모델을 훈련 시키려면 train_config=conf/train.yaml 변경하십시오. 각 단계에 대한 자세한 설명은 ESPNET의 저장소에 문서화되어 있습니다.
이 모델은 Nazarbayev University Kazakhstan (따라서 ISSAI)의 스마트 시스템 및 인공 지능 연구소에서 개발했습니다.
좋은 원인과 현명한 방식으로 모델 만 사용하십시오. 모델을 사용하여 외설적이거나 공격적이거나 종교, 성별, 인종, 언어 또는 기원 영토와 관련된 차별을 포함하는 데이터를 생성해서는 안됩니다.
Issai는 감사하고 귀속이 필요합니다. 귀속에는 원본 논문의 제목, 저자 및 모델 개발이 발생한 조직의 이름이 포함되어야합니다. 예를 들어:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, Ha (2021) Kazakhtts : 오픈 소스 Kazakh 텍스트 음성 합성 데이터 세트. Proc. Interspeech 2021, 2786-2790, doi : 10.21437/interspeech.2021-2124. 스마트 시스템 및 인공 지능 연구소 (issai.nu.edu.kz)
synthesize.py 스크립트를 사용하여 임의의 텍스트를 종합 할 수 있습니다. 스크립트에서 다음 줄을 수정하십시오.
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
이제 임의의 텍스트를 사용하여 스크립트를 실행할 수 있습니다.
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
생성 된 파일은 tts1/synthesized_wavs 폴더에 저장됩니다.
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}