Kokoro语音数据集是日本语音数据集的公共领域。它包含43,253个单个扬声器的简短音频剪辑,阅读14本小说。元数据的格式类似于LJ语音的格式,因此数据集与现代语音合成系统兼容。
这些文本来自在公共领域的Aozora Bunko。音频剪辑来自Librivox项目,该项目也位于公共领域。读数是由Mecab估算的,来自汉字 - 卡纳混合物文本的Unidic Lite。读数是罗马化的,类似于朱利叶斯使用的格式。
拆分音频剪辑,并通过Kokoro-Align自动对齐转录本。
从浏览器收听或随机下载100个剪辑。
元数据在metadata.csv中提供。该文件由每行记录组成,由管道字符(0x7C)界定。这些字段是:
每个音频文件是一个单渠道16位PCM WAV,采样率为22050 Hz。
该数据集的大小不同, xlarge , large , small , tiny 。 large , small而tiny没有相同的剪辑。 xlarge包含所有可用的夹子,包括large , small且tiny 。
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
由于其数据集的数据大小很大,因此在此存储库中不包含音频文件,但包括元数据。
要制作数据集的.wav文件,请运行
$ bash download.sh
从项目页面下载元数据。然后运行
$ pip3 install torchaudio
$ python3 extract.py --size tiny
这将打印一个shell脚本示例,以从Archive.org下载MP3音频文件,并提取它们,如果您还没有完成。
这样做后,再次运行命令
$ python3 extract.py --size tiny
要获取tiny的文件./output目录。
您可以将另一个尺寸的名称提供给--size选项,以获取大小的数据集。
您可以将音频剪辑格式指定为--format选项。
经过验证的TACOTRON模型接受了Kokoro语音数据集训练有素,并提供了音频样本。该型号经过了small的21k步骤培训。根据上述存储库,使用LJ语音数据集“围绕20k步骤开始变得可理解”。音频样本读取Gon Gitsune的前几句话,这些句子不包含在small中。
该数据集包含Ekzemplaro阅读的这些书中的录音
该项目还受到CSS10的启发,CSS10包含Librivox的各种语言的音频剪辑。
所有文本均来自Aozora Bunko。 Librivox的Ekzemplaro录音。 Katsuya Iida的对齐和注释。
该数据集位于美国的公共领域(也很可能还有其他国家)。对其使用没有限制。有关更多信息,请参见:librivox.org/pages/public-domain。