Comprehensive E2E TTS
1.0.0
非自动入学的端到端文本到语音(生成波形给定文本),支持SOTA家族无监督的持续时间模型。该项目随着研究界的发展而发展,旨在实现最终的E2E-TT 。欢迎对最佳端到端TT的任何建议:)

数据集在以下文档中指的是数据集的名称,例如LJSpeech和VCTK 。
您可以使用
pip3 install -r requirements.txt
此外,还为Docker用户提供Dockerfile 。
您必须下载验证的型号(将很快共享),并将其放入output/ckpt/DATASET/ 。
对于单扬声器TTS ,运行
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET
对于多演讲者TTS ,运行
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET
可以在preprocessed_data/DATASET/speakers.json上找到学习的扬声器的字典,并且生成的话语将放在output/result/ 。
也支持批次推理,尝试
python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET
综合preprocessed_data/DATASET/val.txt中的所有话语。
可以通过指定所需的音高/能量/持续时间比来控制合成话语的音高/音量/口语速率。例如,一个人可以将语言率提高20%,并将数量减少20%
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8
添加-speaker_id speaker_id用于多演讲者tts。
支持的数据集是
在LJSpeech和VCTK之后,分别添加了单个扬声器TTS数据集(例如,2013年暴雪挑战)和多扬声器TTS数据集(例如,库)。此外,可以在此处调整您自己的语言和数据集。
./deepspeaker/pretrained_models/中。 python3 preprocess.py --dataset DATASET
培训您的模型
python3 train.py --dataset DATASET
有用的选项:
CUDA_VISIBLE_DEVICES=<GPU_IDs> 。使用
tensorboard --logdir output/log
在您的本地主机上提供张板。
'none'和'DeepSpeaker'之间)进行切换。
请用“引用此存储库”的“关于部分”(主页的右上角)引用此存储库。