etos tts
1.0.0
Etos TTS는 야생에서 샘플링 된 목소리로 텍스트를 음성으로 변환 할 수있는 신경 텍스트 음성 (TTS)을 구축하는 것을 목표로합니다. Tacotron의 Pytorch 구현입니다. 완전 엔드 투 엔드 텍스트 음성 연사 합성 모델입니다.
sudo apt install libsndfile1PIP를 사용하여 다른 요구 사항을 설치할 수 있습니다.
pip3 install -r requirements.txt
models/may22 에서 사전 취사 모델을 사용하고 TTS 웹 서버를 실행할 수 있습니다.
python server.py -c server_conf.json
그런 다음 http://127.0.0.1:8000 으로 가서 즐기십시오.
현재 TTS는 데이터 로더를 제공합니다
자신의 교육을 실행하려면 config.json 파일 (아래 간단한 템플릿)을 정의하고 명령으로 호출해야합니다.
train.py --config_path config.json
특정 GPU 세트를 사용하려는 경우.
CUDA_VISIBLE_DEVICES="0,1,4" train.py --config_path config.json
각 실행은 config.json 에 설정 한 폴더 아래에 CorserPonfing 날짜 및 시간이있는 실험 폴더를 만듭니다. 해당 폴더 아래에 아직 검사 점이 없으면 Ctrl+C를 누르면 제거됩니다.
실험 폴더를 --logdir 몇 가지 좋은 교육 로그가있는 텐서 보드를 즐길 수 있습니다.
config.json 예제 :
{
"num_mels": 80,
"num_freq": 1025,
"sample_rate": 22050,
"frame_length_ms": 50,
"frame_shift_ms": 12.5,
"preemphasis": 0.97,
"min_level_db": -100,
"ref_level_db": 20,
"embedding_size": 256,
"text_cleaner": "english_cleaners",
"epochs": 200,
"lr": 0.002,
"warmup_steps": 4000,
"batch_size": 32,
"eval_batch_size":32,
"r": 5,
"mk": 0.0, // guidede attention loss weight. if 0 no use
"priority_freq": true, // freq range emphasis
"griffin_lim_iters": 60,
"power": 1.2,
"dataset": "TWEB",
"meta_file_train": "transcript_train.txt",
"meta_file_val": "transcript_val.txt",
"data_path": "/data/shared/BibleSpeech/",
"min_seq_len": 0,
"num_loader_workers": 8,
"checkpoint": true, // if save checkpoint per save_step
"save_step": 200,
"output_path": "/path/to/my_experiment",
}