Kokoro語音數據集是日本語音數據集的公共領域。它包含43,253個單個揚聲器的簡短音頻剪輯,閱讀14本小說。元數據的格式類似於LJ語音的格式,因此數據集與現代語音合成系統兼容。
這些文本來自在公共領域的Aozora Bunko。音頻剪輯來自Librivox項目,該項目也位於公共領域。讀數是由Mecab估算的,來自漢字 - 卡納混合物文本的Unidic Lite。讀數是羅馬化的,類似於朱利葉斯使用的格式。
拆分音頻剪輯,並通過Kokoro-Align自動對齊轉錄本。
從瀏覽器收聽或隨機下載100個剪輯。
元數據在metadata.csv中提供。該文件由每行記錄組成,由管道字符(0x7C)界定。這些字段是:
每個音頻文件是一個單渠道16位PCM WAV,採樣率為22050 Hz。
該數據集的大小不同, xlarge , large , small , tiny 。 large , small而tiny沒有相同的剪輯。 xlarge包含所有可用的夾子,包括large , small且tiny 。
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
由於其數據集的數據大小很大,因此在此存儲庫中不包含音頻文件,但包括元數據。
要製作數據集的.wav文件,請運行
$ bash download.sh
從項目頁面下載元數據。然後運行
$ pip3 install torchaudio
$ python3 extract.py --size tiny
這將打印一個shell腳本示例,以從Archive.org下載MP3音頻文件,並提取它們,如果您還沒有完成。
這樣做後,再次運行命令
$ python3 extract.py --size tiny
要獲取tiny的文件./output目錄。
您可以將另一個尺寸的名稱提供給--size選項,以獲取大小的數據集。
您可以將音頻剪輯格式指定為--format選項。
經過驗證的TACOTRON模型接受了Kokoro語音數據集訓練有素,並提供了音頻樣本。該型號經過了small的21k步驟培訓。根據上述存儲庫,使用LJ語音數據集“圍繞20k步驟開始變得可理解”。音頻樣本讀取Gon Gitsune的前幾句話,這些句子不包含在small中。
該數據集包含Ekzemplaro閱讀的這些書中的錄音
該項目還受到CSS10的啟發,CSS10包含Librivox的各種語言的音頻剪輯。
所有文本均來自Aozora Bunko。 Librivox的Ekzemplaro錄音。 Katsuya Iida的對齊和註釋。
該數據集位於美國的公共領域(也很可能還有其他國家)。對其使用沒有限制。有關更多信息,請參見:librivox.org/pages/public-domain。