tts-dataset-prompts
[很大程度上被遗弃了,对不起!]
该存储库的目的是为希望克隆自己的声音的人们(例如使用Tacotron 2)成为一组体面的句子。
每组50行旨在满足以下标准:
- 根据cmudict(元音的不同版本,元音的不同版本),每个音素至少代表一次;元素算作单独的音素;需要两次辅音)
- 每个音素大致与常规语音一样频繁(除非音素在批处理中仅存在4或更少的时间)
- 说话时,每一行的长度大致相等(14-18个音节 +非最终标点符号)
- 具有上下文依赖的发音的单词(避免使用非常常见的
the )以便于处理 - 至少10行包含逗号
- 至少有10行由多个较短的句子组成(以便AI学会自然停顿)
按照相同的规则,将提供其他文本文件以提问和感叹号。它们之所以分开,是因为某些文本到语音体系结构在影响整个句子的语调的结束标点符号方面很差。按照塔尔克(Talqu)的建议,使用它们来训练单独的模型并为Mekatron服务中的某些声音(已删除)中的某些声音训练可能是有益的。
该回购使用G2P-EN库来确定音素计数,以匹配Uberduck的声音化。
其他好的提示套装
- (多语言!)Microsoft CustomVoice示例脚本(并非所有提示列表都是精心设计的,例如,EN-US聊天提示仅包括 /ʒ /作为“印度尼西亚”一词的一部分)
- 彩虹通道和祖父通过(语音完成)
- CMU北极提示列表(语音平衡,但每行只有一个句子)
- Mocha-Timit(“旨在包括英语中的主要连接语音过程(例如,同化,弱形式..)”)
- TIMIT(大部分是随机句子)
- (多语言!)常见的语音句子(根本不是语音平衡,也很短)
- ljspeech成绩单(句子片段比比皆是,我个人认为是有用的)
- 哈佛句子(语音平衡,但每行只有一个句子,它们都相等)
- vits-fast-fi-fining uning列表(英语和中文,但句子很短,语法并不完美)