Comprehensive E2E TTS下载 - Comprehensive E2E TTS源代码下载

Comprehensive E2E TTS

Ai源码

1.0.0

下载

综合-E2E-TTS- PYTORCH实施

非自动入学的端到端文本到语音（生成波形给定文本），支持SOTA家族无监督的持续时间模型。该项目随着研究界的发展而发展，旨在实现最终的E2E-TT 。欢迎对最佳端到端TT的任何建议:)

建筑设计

WavThruvec：潜在语音表示为神经语音综合的中间特征（Siuzdak等，2022）
喷气机：共同训练fastspeech2和hifi-gan，以端到头文本到语音（Lim等，2022）

语言编码器

FastSpeech 2：快速和高质量的端到端文本到语音（Ren等，2020）

音频UPSAMPLER

HIFI ++：神经声音，带宽扩展和语音增强的统一框架（Andreev等，2022）
HIFI-GAN：生成的对抗网络，以进行高效和高保真语音综合（Kong等，2020）

持续时间建模

端到端文本到语音的可区分持续时间建模（Nguyen等，2022）
一个tts对齐都可以统治所有人（Badlani等，2021）

Quickstart

数据集在以下文档中指的是数据集的名称，例如LJSpeech和VCTK 。

依赖性

您可以使用

 pip3 install -r requirements.txt

此外，还为Docker用户提供Dockerfile 。

推理

您必须下载验证的型号（将很快共享），并将其放入output/ckpt/DATASET/ 。

对于单扬声器TTS ，运行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

对于多演讲者TTS ，运行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

可以在preprocessed_data/DATASET/speakers.json上找到学习的扬声器的字典，并且生成的话语将放在output/result/ 。

批次推理

也支持批次推理，尝试

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

综合preprocessed_data/DATASET/val.txt中的所有话语。

可控性

可以通过指定所需的音高/能量/持续时间比来控制合成话语的音高/音量/口语速率。例如，一个人可以将语言率提高20％，并将数量减少20％

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

添加-speaker_id speaker_id用于多演讲者tts。

训练

数据集

支持的数据集是

LJSpeech：单扬声器英语数据集由13100个女演讲者的简短音频剪辑组成，其中7本非小说类书籍的阅读段落总共约24小时。
VCTK：CSTR VCTK语料库包括由110位英语说话者（多扬声器TTS ）发表的语音数据，并带有各种口音。每个发言人都会读出大约400个句子，这些句子是从报纸，彩虹通道和语音口音档案中使用的启发段落中选出的。

在LJSpeech和VCTK之后，分别添加了单个扬声器TTS数据集（例如，2013年暴雪挑战）和多扬声器TTS数据集（例如，库）。此外，可以在此处调整您自己的语言和数据集。

预处理

对于带有外部扬声器嵌入式的多扬声器TT ，下载cacknn softmax+三胞胎预算的Philipperemy DeepSpeaker的扬声器嵌入模型，并将其定位在./deepspeaker/pretrained_models/中。

通过

 python3 preprocess.py --dataset DATASET

训练

培训您的模型

 python3 train.py --dataset DATASET

有用的选项：

培训师假定单节点多GPU培训。要使用特定的GPU，请在上述命令的开头指定CUDA_VISIBLE_DEVICES=<GPU_IDs> 。

张板

使用

 tensorboard --logdir output/log

在您的本地主机上提供张板。

笔记

嵌入多演讲者TTS设置的两个选项：从头开始培训扬声器嵌入器或使用预先训练的Philipperemy的DeepSpeaker模型（如Styler所做的那样）。您可以通过设置配置（在'none'和'DeepSpeaker'之间）进行切换。
VCTK数据集上的DeepSpeaker在说话者之间显示出明确的身份。下图显示了提取的扬声器嵌入的T-SNE图。