Kokoro Speech Dataset下載Kokoro Speech Dataset集源代碼下載

Kokoro Speech Dataset

Ai源碼

Keep word separators in transcripts with '_'

下載

Kokoro語音數據集

Kokoro語音數據集是日本語音數據集的公共領域。它包含43,253個單個揚聲器的簡短音頻剪輯，閱讀14本小說。元數據的格式類似於LJ語音的格式，因此數據集與現代語音合成系統兼容。

這些文本來自在公共領域的Aozora Bunko。音頻剪輯來自Librivox項目，該項目也位於公共領域。讀數是由Mecab估算的，來自漢字 - 卡納混合物文本的Unidic Lite。讀數是羅馬化的，類似於朱利葉斯使用的格式。

拆分音頻剪輯，並通過Kokoro-Align自動對齊轉錄本。

示例數據

從瀏覽器收聽或隨機下載100個剪輯。

文件格式

元數據在metadata.csv中提供。該文件由每行記錄組成，由管道字符（0x7C）界定。這些字段是：

id：這是相應.wav文件的名稱
轉錄：讀者（UTF-8）所使用的漢Ji-kana混合物文本
閱讀：讀者（UTF-8）所說的羅馬化文本

每個音頻文件是一個單渠道16位PCM WAV，採樣率為22050 Hz。

統計數據

該數據集的大小不同， xlarge ， large ， small ， tiny 。 large ， small而tiny沒有相同的剪輯。 xlarge包含所有可用的夾子，包括large ， small且tiny 。

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

如何獲取數據

由於其數據集的數據大小很大，因此在此存儲庫中不包含音頻文件，但包括元數據。

要製作數據集的.wav文件，請運行

 $ bash download.sh

從項目頁面下載元數據。然後運行

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

這將打印一個shell腳本示例，以從Archive.org下載MP3音頻文件，並提取它們，如果您還沒有完成。

這樣做後，再次運行命令

 $ python3 extract.py --size tiny

要獲取tiny的文件./output目錄。

您可以將另一個尺寸的名稱提供給--size選項，以獲取大小的數據集。

您可以將音頻剪輯格式指定為--format選項。

預驗證的TACOTRON模型

音頻樣本
預驗證的模型

經過驗證的TACOTRON模型接受了Kokoro語音數據集訓練有素，並提供了音頻樣本。該型號經過了small的21k步驟培訓。根據上述存儲庫，使用LJ語音數據集“圍繞20k步驟開始變得可理解”。音頻樣本讀取Gon Gitsune的前幾句話，這些句子不包含在small中。

圖書

該數據集包含Ekzemplaro閱讀的這些書中的錄音

明暗（Meian）16:39:29在線文字
こころ（Kokoro）08:46:41在線文字
田舎教師（inaka kyoshi）08:13:26在線文字
野分（Nowaki）4:40:49在線文字
草枕（kusamakura）04:27:35在線文字
坊っちゃん（Botchan）04:26:27在線文字
雁（gan）03:41:31在線文字
生まれいずる悩み（Umareizuru Nayami）2:43:12在線文字
硝子戸の中（garasudono uchi）2:39:53在線文字
永日小品（Eijitsu Syohin）2:33:54在線文字
蒲団（Futon）2:28:58在線文字
高野聖（kouyahijiri）2:06:23在線文字
ごん狐（Gon Gitsune）0:15:42在線文字
コーカサスの禿鷹（高加索無hagetaka）0:13:04在線文字

類似的項目

該項目還受到CSS10的啟發，CSS10包含Librivox的各種語言的音頻剪輯。

ChangElog

v1.3將單詞分離器與“ _”保持成績單
v1.2新的元數據用新的對齊模型生成
v1.1.1添加了FLAC，MP3，OGG支持
v1.1添加了更多書籍
V1.0初始版本

學分

所有文本均來自Aozora Bunko。 Librivox的Ekzemplaro錄音。 Katsuya Iida的對齊和註釋。

執照

該數據集位於美國的公共領域（也很可能還有其他國家）。對其使用沒有限制。有關更多信息，請參見：librivox.org/pages/public-domain。

展開

附加信息

版本 Keep word separators in transcripts with '_'
類型 Ai源碼
更新時間 2025-08-23
大小 6.61KB
來自於 Github

相關應用

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部