由于平行TTS系统的快速发展,文本到语音(TTS)最近在综合高质量的语音方面取得了长足进步,但是通过自然主义的韵律变化,口语风格和情感色调发表语音仍然具有挑战性。此外,由于持续时间和言语是单独生成的,因此平行的TTS模型仍然存在问题,发现最佳的单调比对对于自然主义语音综合至关重要。在这里,我们提出了Styletts,这是一种基于样式的生成模型,用于平行TT,可以将各种语音与参考语音发言的自然韵律合成。在新型可转移的单调对准器(TMA)和持续不变的数据增强方案中,我们的方法在言语自然和说话者相似性的主观测试中,在单个和多扬声器数据集中都显着超过了最先进的模型。通过对口语风格的自我监督学习,我们的模型可以用与任何给定的参考语音相同的韵律和情感语气综合语音,而无需明确标记这些类别。
论文:https://arxiv.org/abs/2107.10394
音频样本:https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git第一阶段训练:
python train_first.py --config_path ./Configs/config.yml第二阶段训练:
python train_second.py --config_path ./Configs/config.yml您可以连续运行,它将训练第一阶段和第二阶段。该模型将以“ epoch_1st_%05d.pth”和“ epoch_2nd_%05d.pth”的格式保存。检查点和张板日志将保存在log_dir上。
数据列表格式需要为filename.wav|transcription ,请参见Val_list_libritts.txt。
有关详细信息,请参阅tef tef theperion.ipynb。
可以在Styletts Link和Hifi-Gan Link下载LJSpeech语料库上的易于预读的Styletts和Hifi-Gan。
可以在styletts link和hifi-gan链接下下载验证的易莱茨和hifi-gan。如果要运行零弹性演示,则还需要从库中下载测试清洁。
请解开Models和Vocoder各自,并在笔记本中运行每个单元格。您还需要安装PhoneMizer来运行此推理演示。
验证的文本对齐器和俯仰提取器模型在Utils文件夹下提供。文本对齐器和俯仰提取器模型均经过使用meldataset.py进行预处理的MELSEDER图训练。
您可以使用自己的MelspectRogram预处理编辑Meldataset.py,但是提供的预贴上的型号将不再起作用。您将需要使用新的预处理训练自己的文本对准器和音高提取器。
培训的代码在此处提供新的文本对准器模型,并且可以在此处提供训练新的音高提取器模型。
如果我有额外的时间,我将提供更多现有预处理的现有预处理。如果您愿意提供帮助,请随时使用ESPNET进行收件。