Kokoro Speech Dataset下载Kokoro Speech Dataset集源代码下载

Kokoro Speech Dataset

Ai源码

Keep word separators in transcripts with '_'

下载

Kokoro语音数据集

Kokoro语音数据集是日本语音数据集的公共领域。它包含43,253个单个扬声器的简短音频剪辑，阅读14本小说。元数据的格式类似于LJ语音的格式，因此数据集与现代语音合成系统兼容。

这些文本来自在公共领域的Aozora Bunko。音频剪辑来自Librivox项目，该项目也位于公共领域。读数是由Mecab估算的，来自汉字 - 卡纳混合物文本的Unidic Lite。读数是罗马化的，类似于朱利叶斯使用的格式。

拆分音频剪辑，并通过Kokoro-Align自动对齐转录本。

示例数据

从浏览器收听或随机下载100个剪辑。

文件格式

元数据在metadata.csv中提供。该文件由每行记录组成，由管道字符（0x7C）界定。这些字段是：

id：这是相应.wav文件的名称
转录：读者（UTF-8）所使用的汉Ji-kana混合物文本
阅读：读者（UTF-8）所说的罗马化文本

每个音频文件是一个单渠道16位PCM WAV，采样率为22050 Hz。

统计数据

该数据集的大小不同， xlarge ， large ， small ， tiny 。 large ， small而tiny没有相同的剪辑。 xlarge包含所有可用的夹子，包括large ， small且tiny 。

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

如何获取数据

由于其数据集的数据大小很大，因此在此存储库中不包含音频文件，但包括元数据。

要制作数据集的.wav文件，请运行

 $ bash download.sh

从项目页面下载元数据。然后运行

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

这将打印一个shell脚本示例，以从Archive.org下载MP3音频文件，并提取它们，如果您还没有完成。

这样做后，再次运行命令

 $ python3 extract.py --size tiny

要获取tiny的文件./output目录。

您可以将另一个尺寸的名称提供给--size选项，以获取大小的数据集。

您可以将音频剪辑格式指定为--format选项。

预验证的TACOTRON模型

音频样本
预验证的模型

经过验证的TACOTRON模型接受了Kokoro语音数据集训练有素，并提供了音频样本。该型号经过了small的21k步骤培训。根据上述存储库，使用LJ语音数据集“围绕20k步骤开始变得可理解”。音频样本读取Gon Gitsune的前几句话，这些句子不包含在small中。

图书

该数据集包含Ekzemplaro阅读的这些书中的录音

明暗（Meian）16:39:29在线文字
こころ（Kokoro）08:46:41在线文字
田舎教师（inaka kyoshi）08:13:26在线文字
野分（Nowaki）4:40:49在线文字
草枕（kusamakura）04:27:35在线文字
坊っちゃん（Botchan）04:26:27在线文字
雁（gan）03:41:31在线文字
生まれいずる悩み（Umareizuru Nayami）2:43:12在线文字
硝子戸の中（garasudono uchi）2:39:53在线文字
永日小品（Eijitsu Syohin）2:33:54在线文字
蒲団（Futon）2:28:58在线文字
高野圣（kouyahijiri）2:06:23在线文字
ごん狐（Gon Gitsune）0:15:42在线文字
コーカサスの秃鹰（高加索无hagetaka）0:13:04在线文字

类似的项目

该项目还受到CSS10的启发，CSS10包含Librivox的各种语言的音频剪辑。

ChangElog

v1.3将单词分离器与“ _”保持成绩单
v1.2新的元数据用新的对齐模型生成
v1.1.1添加了FLAC，MP3，OGG支持
v1.1添加了更多书籍
V1.0初始版本

学分

所有文本均来自Aozora Bunko。 Librivox的Ekzemplaro录音。 Katsuya Iida的对齐和注释。

执照

该数据集位于美国的公共领域（也很可能还有其他国家）。对其使用没有限制。有关更多信息，请参见：librivox.org/pages/public-domain。

展开

附加信息

版本 Keep word separators in transcripts with '_'
类型 Ai源码
更新时间 2025-08-23
大小 6.61KB
来自于 Github

Kokoro Speech Dataset

Kokoro语音数据集

示例数据

文件格式

统计数据

如何获取数据

预验证的TACOTRON模型

图书

类似的项目

ChangElog

学分

执照

ears_dataset

glaucoma dataset metadata

ffhq wrinkle dataset

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express