tts-dataset-prompts
[很大程度上被遺棄了,對不起! ]
該存儲庫的目的是為希望克隆自己的聲音的人們(例如使用Tacotron 2)成為一組體面的句子。
每組50行旨在滿足以下標準:
- 根據cmudict(元音的不同版本,元音的不同版本),每個音素至少代表一次;元素算作單獨的音素;需要兩次輔音)
- 每個音素大致與常規語音一樣頻繁(除非音素在批處理中僅存在4或更少的時間)
- 說話時,每一行的長度大致相等(14-18個音節 +非最終標點符號)
- 具有上下文依賴的發音的單詞(避免使用非常常見的
the )以便於處理 - 至少10行包含逗號
- 至少有10行由多個較短的句子組成(以便AI學會自然停頓)
按照相同的規則,將提供其他文本文件以提問和感嘆號。它們之所以分開,是因為某些文本到語音體系結構在影響整個句子的語調的結束標點符號方面很差。按照塔爾克(Talqu)的建議,使用它們來訓練單獨的模型並為Mekatron服務中的某些聲音(已刪除)中的某些聲音訓練可能是有益的。
該回購使用G2P-EN庫來確定音素計數,以匹配Uberduck的聲音化。
其他好的提示套裝
- (多語言!)Microsoft CustomVoice示例腳本(並非所有提示列表都是精心設計的,例如,EN-US聊天提示僅包括 /ʒ /作為“印度尼西亞”一詞的一部分)
- 彩虹通道和祖父通過(語音完成)
- CMU北極提示列表(語音平衡,但每行只有一個句子)
- Mocha-Timit(“旨在包括英語中的主要連接語音過程(例如,同化,弱形式..)”)
- TIMIT(大部分是隨機句子)
- (多語言!)常見的語音句子(根本不是語音平衡,也很短)
- ljspeech成績單(句子片段比比皆是,我個人認為是有用的)
- 哈佛句子(語音平衡,但每行只有一個句子,它們都相等)
- vits-fast-fi-fining uning列表(英語和中文,但句子很短,語法並不完美)