Kazakh_TTS 다운로드 Kazakh_TTS 소스 코드 다운로드

Kazakh_TTS

AI 소스 코드

1.0.0

다운로드

Kazakhtts 레시피

이것은 Kazakhtts와 Kazakhtts2 Corpora를 기반으로 한 Kazakh 텍스트 음성 변환 모델의 레시피입니다.

설정 및 요구 사항

우리의 코드는 ESPNET을 기반으로하며 프레임 워크의 사전 설치가 필요합니다. 설치 안내서를 따르고 espnet/egs2/ 디렉토리에 Kazakhtts 폴더를 넣으십시오.

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Kazakh_tts/TTS1 폴더로 이동하여 종속성에 대한 링크를 만듭니다.

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

데이터 세트 다운로드

선택한 디렉토리에서 Kazakhtts 데이터 세트와 Untar를 다운로드하십시오. KazakhTTS/tts1/local/data.sh 스크립트 내부의 데이터 세트 디렉토리 (오디오/전 사체가 위치한 위치)의 경로를 지정하십시오.

 db_root=/path-to-speaker-folder

예를 들어 db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

훈련

모델을 훈련 시키려면 KazakhTTS/tts1/ 폴더 내부에서 스크립트 ./run.sh 실행하십시오. GPU 및 RAM 사양은 구성 ( conf/ ) 폴더에서 찾을 수 있습니다.

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

FastSpeech/Transformer 모델을 훈련 시키려면 train_config=conf/train.yaml 변경하십시오. 각 단계에 대한 자세한 설명은 ESPNET의 저장소에 문서화되어 있습니다.

사전 예방 모델

이 모델은 Nazarbayev University Kazakhstan (따라서 ISSAI)의 스마트 시스템 및 인공 지능 연구소에서 개발했습니다.

좋은 원인과 현명한 방식으로 모델 만 사용하십시오. 모델을 사용하여 외설적이거나 공격적이거나 종교, 성별, 인종, 언어 또는 기원 영토와 관련된 차별을 포함하는 데이터를 생성해서는 안됩니다.

Issai는 감사하고 귀속이 필요합니다. 귀속에는 원본 논문의 제목, 저자 및 모델 개발이 발생한 조직의 이름이 포함되어야합니다. 예를 들어:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, Ha (2021) Kazakhtts : 오픈 소스 Kazakh 텍스트 음성 합성 데이터 세트. Proc. Interspeech 2021, 2786-2790, doi : 10.21437/interspeech.2021-2124. 스마트 시스템 및 인공 지능 연구소 (issai.nu.edu.kz)

kaztts_female1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female1_tacotron2_train.loss.ave.zip

kaztts_female2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female2_tacotron2_train.loss.ave.zip

kaztts_female3_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female3_tacotron2_train.loss.ave.zip

KAZTTS_MALE1_TACOTRON2_TRAIN.LOSS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male1_tacotron2_train.loss.ave.zip

KAZTTS_MALE2_TACOTRON2_TRAIN.LOSS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.ave.zip

사전 예방 된 보코더

ParallelWavegan_FEMALE1_CHECKPOINT

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female1_checkpoint.zip

ParallelWavegan_FEMALE2_CHECKPOINT

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female2_checkpoint.zip

ParallelWavegan_FEMALE3_CHECKPOINT

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female3_checkpoint.zip

Parallel Wavegan_Male1_CheckPoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male1_checkpoint.zip

Parallel Wavegan_Male2_CheckPoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male2_checkpoint.zip

음성 합성

synthesize.py 스크립트를 사용하여 임의의 텍스트를 종합 할 수 있습니다. 스크립트에서 다음 줄을 수정하십시오.

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

이제 임의의 텍스트를 사용하여 스크립트를 실행할 수 있습니다.

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

생성 된 파일은 tts1/synthesized_wavs 폴더에 저장됩니다.

소환

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

확장하다

추가 정보