Kokoro Speech Datasetは、パブリックドメインの日本の音声データセットです。 14冊の小説を読む1つのスピーカーの43,253の短いオーディオクリップが含まれています。メタデータの形式は、LJスピーチの形式と類似しているため、データセットは最新の音声合成システムと互換性があります。
テキストは、パブリックドメインにあるAozora Bunkoのものです。オーディオクリップは、PublicドメインにもあるLibrivoxプロジェクトからのものです。測定値は、Kanji-Kana混合テキストのMecabおよびUnidic Liteによって推定されます。測定値はロマン化されており、ジュリアスが使用する形式に似ています。
オーディオクリップは分割され、トランスクリプトはココロアライグルによって自動的に整列されました。
ブラウザから聞くか、ランダムにサンプリングされた100個のクリップをダウンロードしてください。
メタデータはmetadata.csvで提供されます。このファイルは、パイプ文字(0x7c)で区切られた1行あたり1つのレコードで構成されています。フィールドは次のとおりです。
各オーディオファイルは、22050 Hzのサンプルレートを持つシングルチャネル16ビットPCM WAVです。
データセットは、さまざまなサイズ、 xlarge 、 large 、 small 、 tiny提供されています。 large small 、 tiny 、同じクリップを共有しないでください。 xlargeは、 large 、 small 、 tinyなど、利用可能なすべてのクリップが含まれています。
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
データセットのデータサイズが大きいため、オーディオファイルはこのリポジトリに含まれていませんが、メタデータは含まれています。
データセットの.wavファイルを作成するには、実行します
$ bash download.sh
プロジェクトページからメタデータをダウンロードします。その後、実行します
$ pip3 install torchaudio
$ python3 extract.py --size tiny
これにより、archive.orgからmp3オーディオファイルをダウンロードするシェルスクリプトの例を印刷し、まだ行っていない場合は抽出します。
その後、コマンドをもう一度実行します
$ python3 extract.py --size tiny
./outputディレクトリのtinyのファイルを取得します。
--sizeオプションに別のサイズ名を指定して、サイズのデータセットを取得できます。
--formatオプションにオーディオクリップ形式を指定できます。
ココロの音声データセットとオーディオサンプルで訓練された事前に保護されたタコトロンモデルが利用可能です。このモデルは、21Kステップで訓練さsmallました。上記のレポによると、LJ Speech Datasetを使用して「スピーチは約20Kステップになり始めました」。オーディオサンプルは、 smallに含まれていないGon Gitsuneからの最初の数文を読みました。
データセットには、これらの本の録音がekzemplaroによって読まれました
このプロジェクトは、Librivoxのさまざまな言語のオーディオクリップを含むCSS10にも触発されました。
すべてのテキストはAozora Bunkoからのものです。 LibrivoxのEkzemplaroによる録音。 Katsuya Iidaによるアラインメントと注釈。
このデータセットは、米国のパブリックドメイン(およびおそらく他の国)にあります。その使用に関する制限はありません。詳細については、librivox.org/pages/public-domainをご覧ください。