StyleTTS2下载StyleTTS2源代码下载

StyleTTS2

Ai源码

1.0.0

下载

STYLETTS 2：通过大型语音语言模型通过样式扩散和对抗性培训迈向人级的文本到语音训练

Yinghao Aaron Li，Cong Han，Vinay S. Raghavan，Gavin Mischler，Nima Mesgarani

在本文中，我们提出了Styletts 2，这是一种文本到语音（TTS）模型，该模型利用大型语音语言模型（SLM）利用样式扩散和对抗性训练来实现人级TTS合成。 Styletts 2通过将样式建模为通过扩散模型建模为潜在的随机变量，从而生成了最合适的文本样式，而无需参考语音，从而实现了有效的潜在扩散，同时受益于扩散模型提供的各种语音综合。此外，我们采用了大型的预训练的SLM，例如WAVLM，作为我们的新型可区分持续时间建模来进行端到端训练，从而改善了语音自然性。 STYLETTS 2超过了单扬声器LJSpeech数据集上的人类录音，并在MultiSpeaker VCTK数据集上匹配了以英语为母语的人。此外，当在库列茨数据集中接受培训时，我们的模型优于以前的公开模型，用于零摄像机的适应器。这项工作实现了单个和多言论扬声器数据集上的第一个人级TTS综合，展示了风格扩散和对对抗性训练的潜力。

论文：https：//arxiv.org/abs/2306.07691

音频样本：https：//styletts2.github.io/

在线演示：拥抱面孔（感谢@fakerybakery的精彩在线演示）

托多

培训和推理演示代码的单扬声器模型（LJSpeech）
多演讲者模型（VCTK和Libritts）的测试培训代码
完成多台型型号的演示代码，并上传预训练的型号
为新扬声器添加一个带有基础预训练的多钟模型的新扬声器脚本
修复train_second.py的DDP（加速器） （我已经尽力解决此问题，但没有成功，因此，如果您愿意提供帮助，请参阅＃7）

先决条件

Python> = 3.7
克隆这个存储库：

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

安装Python要求：

pip install -r requirements.txt

在Windows上添加：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

还要安装Phonemizer并提及如果要运行演示：

pip install phonemizer
sudo apt-get install espeak-ng

下载并提取LJSpeech数据集，将其拉开为数据文件夹，然后将数据示例为24 kHz。文本对齐器和俯仰提取器已在24 kHz数据上进行了预训练，但是您可以轻松地更改预处理并使用自己的预处理进行重新培训。对于Libritts，您需要将火车清洁-360与火车-Clean-100相结合，并重命名文件夹Train-Clean-460（请参见Val_list_libritts.txt作为示例）。

训练

第一阶段训练：

accelerate launch train_first.py --config_path ./Configs/config.yml

第二阶段培训（DDP版本不起作用，因此当前版本使用DP，如果您想提供帮助，请再次查看＃7） ：

python train_second.py --config_path ./Configs/config.yml

您可以连续运行，它将同时训练第一阶段和第二阶段。该模型将以“ epoch_1st_％05d.pth”和“ epoch_2nd_％05d.pth”的格式保存。检查点和张板日志将保存在log_dir上。

数据列表格式需要为filename.wav|transcription|speaker ，请参见Val_list.txt作为示例。多演讲者模型需要扬声器标签，因为我们需要为样式扩散模型训练示例参考音频。

重要配置

在config.yml中，有一些重要的配置需要照顾：

OOD_data ：SLM对抗训练的分发文本的路径。格式应为text|anything 。
min_length ：训练的最小OOD文本长度。这是为了确保综合语音的长度最小。
max_len ：训练的最大音频长度。单元是框架。由于默认的跃点尺寸为300，因此一个帧约为300 / 24000 ）秒。如果您遇到不可存储的问题，请降低这一点。
multispeaker ：如果您想训练多孔模型，请设置为True。这是需要的，因为DeOiser的架构对于单个和多座模型的模型有所不同。
batch_percentage ：这是为了确保在SLM对抗训练中没有内存（OOM）问题。如果遇到OOM问题，请为此设置较低的数字。

预训练的模块

在Utils文件夹中，有三个预训练的模型：

ASR文件夹：它包含预先训练的文本对准器，该文本对准器已通过英语（库），日语（JVS）和中文（Aishell）语料库进行了预先培训。它适用于大多数其他语言，而无需微调，但是您总是可以在此处使用代码训练自己的文本对准器：YL4579/AuxiliaryAsr。
JDC文件夹：它包含预先训练的螺距提取器，该提取器仅在英语（库）语料库上进行了预训练。但是，它也适用于其他语言，因为F0独立于语言。如果您想对唱歌语料库进行训练，建议在此处使用代码训练新的音高提取器：YL4579/PitchExtractor。
PLBERT文件夹：它包含预先训练的PL-Bert模型，该模型仅在英语（Wikipedia）语料库上进行了预先培训。它可能在其他语言上效果不佳，因此您需要在此处使用repo来训练不同的PL-bert为不同的语言进行训练：yl4579/pl-bert。您还可以使用支持14种语言的多语言PL-Bert。

常见问题

损失变为NAN ：如果它是第一阶段，请确保您不使用混合精度，因为当批处理大小未正确设置时，可能会导致某些特定数据集的损失变成NAN（需要超过16个以上才能正常工作）。在第二阶段，请同时尝试不同的批次大小，较高的批量大小更有可能导致NAN损失值。我们建议将批量尺寸为16。有关更多详细信息，您可以参考第10和＃11问题。
不记忆：请使用较低的batch_size或max_len 。有关更多信息，您可以参考第10期。
非英语数据集：您可以使用所需的任何语言进行培训，但是您需要使用预先训练的PL-bert模型来使用该语言。我们有一个预先培训的多语言PL-Bert，支持14种语言。您可以参考YL4579/STYLETTS＃10和＃70，以获取一些示例以在中文数据集上进行训练。

微调

该脚本是从使用DP的train_second.py修改的，因为DDP不适用于train_second.py 。如果您愿意解决此问题，请参阅上面的大胆部分。

python train_finetune.py --config_path ./Configs/config_ft.yml

请确保在文件夹下下载并解压缩了库检查站。 LJSpeech上的默认配置config_ft.yml finetunes，具有1小时的语音数据（大约1K样本），适用于50个时期。这花了大约4个小时才能完成四个NVIDIA A100。质量比从头开始训练24小时的语音数据训练的LJSpeech型号稍差（类似于LjSpeech上的NaturalSpeech），该模型花费了2.5天大约2.5天的时间才能完成四个A100。可以在＃65（评论）找到样品。

如果您使用的是单个GPU （因为该脚本与DDP不起作用）并希望节省训练速度和VRAM，则可以执行（感谢@korakoe在＃100上制作脚本）：

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

常见问题

@Kreevoz在填充方面的常见问题已经详细说明了，并提出了最大化音频质量的建议：＃81。其中一些也适用于从头开始培训。 @iieleven11还制定了微调指南：＃128。

在joint_epoch之后的记忆中：这很可能是因为您的GPU RAM不够大，无法进行SLM对抗训练。您可能会跳过这一点，但质量可能会更糟。设置joint_epoch数量大于epochs可以跳过SLM前进训练。

推理

有关详细信息，请参阅inference_ljspeech.ipynb（单式扬声器）和inperion_libritts.ipynb（多演讲者）。对于Libritts，您还需要在运行演示之前下载Reference_audio.zip并在demo下解压缩。

可以通过https://huggingface.co/yl4579/styletts2-ljspeech/tree/main下载24 kHz的LJSpeech语料库上的预易款Styletts 2。
可以在https://huggingface.co/yl4579/styletts2-libritts/tree/main上下载列表上的预易款styletts 2模型。

您可以导入Styletts 2并在您自己的代码中运行它。但是，推理取决于GPL许可的软件包，因此它不直接包含在此存储库中。 GPL许可的叉子具有可导入的脚本，以及一个实验流的API等。也提供了使用Gruut（尽管在PhoneMizer和Gruut之间不匹配的质量降低质量）的完全MIT许可的软件包。

在使用这些预训练的模型之前，您同意通知听众，除非您有许可使用您合成的语音，否则先前训练的模型是由预训练的模型合成的。也就是说，您只同意使用其说话者许可的声音直接或通过许可来克隆声音，然后才能在公开合成的声音公开之前，或者您必须公开宣布，如果您没有使用这些声音的许可，则这些声音是合成的。

常见问题

高音背景噪声：这是由旧GPU的数值浮点差异引起的。有关更多详细信息，请参阅第13期。基本上，您需要使用更多现代的GPU或对CPU进行推断。
预先训练的模型许可证：如果您使用预训练的型号并且声音不在培训集中，则只需遵守以上规则，即，您的参考扬声器不是来自任何开放访问数据集。有关使用预训练模型的规则的更多详细信息，请参见＃37。