在最近的论文中,我们提出了YourTTS模型。 YourTTS将多语言方法的力量带入了零击多演讲者TTS的任务。我们的方法建立在VITS模型的基础上,并为零击的多演讲者和多语言培训添加了一些新颖的修改。我们实现了最新的(SOTA)结果,结果零发言人TTS,结果可与SOTA在VCTK数据集上的零发音转换中相当。此外,我们的方法还具有单扬声器数据集的目标语言,可以实现有希望的结果,以零声音扬声器TTS和低资源语言中的零发音语音转换系统开放可能性。最后,可以用少于1分钟的语音来微调YourTTS模型,并实现最新的声音相似性和合理的质量。这对于允许与训练过程中的语音或记录特征截然不同的说话者允许合成。
在YourTTS论文的第2节中,我们定义了说话者一致性损失(SCL)功能。此外,我们在第3和4节的4个微调实验上使用了此损失函数(经验1 + SCL,Exp。2 + SCL,Exp。3 + SCL和Exp。4 + SCL)。但是,由于实施错误,该模型在培训期间没有传播此损失功能的梯度。这意味着使用这种损失的微调实验等同于训练模型的更多步骤,而不会说话者一致性损失。该错误是由TomášNekvinda发现的,并报道了Coqui TTS存储库的第2348号问题。此错误已修复在Coqui TTS存储库上的拉请请求号2364上。目前,它针对Coqui TTS版本V0.12.0或更高版本进行了修复。我们要感谢TomášNekvinda找到了该错误并报告了该错误。
快来尝试我们最新,最伟大的富含英语的唯一模特https://coqui.ai/
访问我们的网站以获取音频样本。
我们所有的实验均在Coqui TTS存储库上实施。
| 演示 | URL |
|---|---|
| 零射TT | 关联 |
| 零射VC | 关联 |
| 零射击VC-实验1(用VCTK训练) | 关联 |
所有发布的检查站均根据CC BY-NC-ND 4.0许可
| 模型 | URL |
|---|---|
| 扬声器编码器 | 关联 |
| Exp1。Yourtts-en(VCTK) | 无法使用 |
| EXP1。Yourtts-en(VCTK) + SCL | 关联 |
| Exp2。Yourtts-en(VCTK)-pt | 无法使用 |
| Exp2。Yourtts-en(VCTK)-PT + SCL | 无法使用 |
| EXP3。Yourtts-en(VCTK)-pt-fr | 无法使用 |
| EXP3。Yourtts-en(VCTK)-PT-FR SCL | 无法使用 |
| EXP4。Yourtts-en(VCTK+libritts)-pt-fr SCL | 无法使用 |
使用? TTS版本V0.7.0发布了用于文本到语音的YourTTS模型,使用以下命令:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
考虑到“ target_speaker_wav.wav”目标扬声器的音频样本。
使用? TTS发布了用于语音转换的YourTTS模型使用以下命令:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
将“ target_content_wav.wav”视为参考波文件,以转换为“ target_speaker_wav.wav”扬声器的语音。
为了确保可复制性,我们使音频用于在此处生成可用的MOS。此外,我们在这里为每个音频提供MOS。
要重新生成我们的MOS结果,请按照此处的说明进行操作。为了预测测试句子并生成SECS,请使用此处可用的Jupyter笔记本。
库(测试清洁):1188,1995,260,1284,2300,237,908,1580,121和1089
VCTK:P261,P225,P294,P347,P238,P234,P248,P335,P245,P245,P326和P302
MLS葡萄牙语:12710,5677,12249,12287,9351,11995,7925,7925,3050,4367和1306
为了完全复制实验1,我们提供了有关coqui tts的食谱。此食谱下载,重新采样,提取扬声器嵌入并训练模型,而无需进行代码的任何更改。
该文章是使用我的Coqui TTS叉在分支多语言torchaudio-se上制作的。
如果您想使用最新版本的Coqui TTS,则可以从Coqui发布的模型中获取Config.json。
使用Config.json,您首先需要将“数据集”配置更改为数据集。使用config.json和“数据集”配置调整后python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json您需要使用以下命令使用我们发布的扬声器编码器提取说话者的嵌入方式: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
“ model_se.pth.tar”和“ config_se.json”可以在coqui发布的模型中找到,而config.json是您设置路径的config。
您应该更改的其他参数在“ config.json”上:
现在,您已经拥有配置为复制培训的config.json,可以使用以下命令(如果您愿意的话,可以使用-restore_path {checkpoint_path_path_path_path_pats_pats_pats_path}来从检查点进行转移学习并加快培训: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}