speaker_adapted_tts
1.0.0
看到我对TaCotron和DCTT的实施,许多人问我“神经TTS需要多大的语音数据集?”或“您可以制作带有X小时/分钟培训数据的TTS型号吗?”我完全意识到这些问题的重要性。当您计划使用TTS的服务时,它并不总是很有可能获得大量的语音样本。我想给出一个答案。我真的但不幸的是我没有答案。我唯一知道的是,我可以通过从凯特·温斯莱特(Kate Winslet)的有声读物中提取的五个小时的语音样本来成功培训模型。我没有尝试过比这更少的数据。我可以尝试一下,但实际上我有一个更好的主意。由于我有一个像LJ语音数据集训练好几天的模型,所以我为什么不使用它?毕竟,我们都有不同的声音,但是我们说英语的方式并没有完全不同。
在上面的两个存储库中,我使用了我最喜欢的两个名人Nick Offerman和Kate Winslet的所有演讲样本培训了TTS模型。这次,我只使用一分钟的语音样本。以下是经过10分钟的微调训练后的合成样品。您认为他们听起来像他们吗?
此外,我从YouTube收集了10个现代家庭名人的演讲样本,并在这些样本上产生了他们的声音。
在此处查看模型详细信息,源代码和验证的模型,该模型用作种子。