text2speech 다운로드 text2speech 소스 코드 다운로드

text2speech

AI 소스 코드

1.0.0

다운로드

다음 10 억 명의 사용자를위한 텍스트 음주 시스템을 구축합니다

? ICASSP 2023에서 승인

딥 러닝 기반 TTS (Text-To-Steeech) 시스템은 모델 아키텍처, 교육 방법론 및 스피커 및 언어 간의 일반화로 빠르게 발전하고 있습니다. 그러나 이러한 발전은 인도 언어 연설 합성을 위해 철저히 조사되지 않았습니다. 이러한 조사는 인도 언어의 수와 다양성, 상대적으로 낮은 자원 가용성, 그리고 테스트되지 않은 신경 TT의 다양한 발전 세트를 감안할 때 계산적으로 비쌉니다. 이 논문에서는 Dravidian 및 Indo-Aryan 언어를위한 음향 모델, 보코더, 보충 손실 기능, 교육 일정 및 스피커 및 언어 다양성의 선택을 평가합니다. 이를 바탕으로, 우리는 Fastpitch와 Hifi-Gan V1을 사용하여 단일 언어 모델을 식별하고 남성 및 여성 스피커를 공동으로 교육하여 최고를 수행합니다. 이 설정을 통해 우리는 13 개 언어의 TTS 모델을 교육하고 평가하고 평균 의견 점수로 측정 된 모든 언어의 기존 모델을 크게 개선 할 수있는 모델을 찾습니다. 우리는 Bhashini 플랫폼에서 모든 모델을 오픈 소스에 소송합니다.

TL; DR : 우리는 아삼 어, 벵골어, 보도, 구자라트티, 힌디어, 칸나다어, 말라 얄 람어, 마라 티어, 오디아, 라자스타니, 타밀어 및 텔루구 어에 대한 13 개의 인도 언어에 대한 소타 소타 텍스트 연설 모델 오픈 소스 소스 소스 텍스트 음성 변환 모델 .

저자 : Gokul Karthik Kumar*, Praveen SV*, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar

[ARXIV PREPRINT] [오디오 샘플] [Try It Live] [비디오]

TTS 시스템의 통합 아키텍처

결과

설정:

환경 설정 :

 # 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env

# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer 

cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch 
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py

# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS 

cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis

# 5. Install other requirements
> pip3 install -r requirements.txt

데이터 설정 :

형식은 전처리/formatdatasets.ipynb를 사용하여 ljspeech 형식의 데이터 세트를 표시합니다
Preprocessing/AnalyzedAtaset.ipynb를 사용하여 TTS 적합성을 확인하기 위해 기소 데이터 세트를 분석하십시오

훈련 단계 :

main.py, vocoder.py, configs and run.sh로 구성을 설정하십시오. 이 모든 파일에서 cuda_visible_devices를 업데이트하십시오.
sh run.sh 실행하여 훈련 및 테스트

추론:

이 링크에서 훈련 된 모델 가중치 및 구성 파일을 다운로드 할 수 있습니다.

 python3 -m TTS.bin.synthesize --text <TEXT> 
    --model_path <LANG>/fastpitch/best_model.pth 
    --config_path <LANG>/config.json 
    --vocoder_path <LANG>/hifigan/best_model.pth 
    --vocoder_config_path <LANG>/hifigan/config.json 
    --out_path <OUT_PATH>

코드 참조 : https://github.com/coqui-ai/tts

확장하다

추가 정보