? ICASSP 2023에서 승인
딥 러닝 기반 TTS (Text-To-Steeech) 시스템은 모델 아키텍처, 교육 방법론 및 스피커 및 언어 간의 일반화로 빠르게 발전하고 있습니다. 그러나 이러한 발전은 인도 언어 연설 합성을 위해 철저히 조사되지 않았습니다. 이러한 조사는 인도 언어의 수와 다양성, 상대적으로 낮은 자원 가용성, 그리고 테스트되지 않은 신경 TT의 다양한 발전 세트를 감안할 때 계산적으로 비쌉니다. 이 논문에서는 Dravidian 및 Indo-Aryan 언어를위한 음향 모델, 보코더, 보충 손실 기능, 교육 일정 및 스피커 및 언어 다양성의 선택을 평가합니다. 이를 바탕으로, 우리는 Fastpitch와 Hifi-Gan V1을 사용하여 단일 언어 모델을 식별하고 남성 및 여성 스피커를 공동으로 교육하여 최고를 수행합니다. 이 설정을 통해 우리는 13 개 언어의 TTS 모델을 교육하고 평가하고 평균 의견 점수로 측정 된 모든 언어의 기존 모델을 크게 개선 할 수있는 모델을 찾습니다. 우리는 Bhashini 플랫폼에서 모든 모델을 오픈 소스에 소송합니다.
TL; DR : 우리는 아삼 어, 벵골어, 보도, 구자라트티, 힌디어, 칸나다어, 말라 얄 람어, 마라 티어, 오디아, 라자스타니, 타밀어 및 텔루구 어에 대한 13 개의 인도 언어에 대한 소타 소타 텍스트 연설 모델 오픈 소스 소스 소스 텍스트 음성 변환 모델 .
저자 : Gokul Karthik Kumar*, Praveen SV*, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar
[ARXIV PREPRINT] [오디오 샘플] [Try It Live] [비디오]


# 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env
# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer
cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py
# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS
cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis
# 5. Install other requirements
> pip3 install -r requirements.txt
sh run.sh 실행하여 훈련 및 테스트이 링크에서 훈련 된 모델 가중치 및 구성 파일을 다운로드 할 수 있습니다.
python3 -m TTS.bin.synthesize --text <TEXT>
--model_path <LANG>/fastpitch/best_model.pth
--config_path <LANG>/config.json
--vocoder_path <LANG>/hifigan/best_model.pth
--vocoder_config_path <LANG>/hifigan/config.json
--out_path <OUT_PATH>
코드 참조 : https://github.com/coqui-ai/tts