Kokoro Speech Dataset ist ein öffentlich zugänglicher japanischer Sprachdatensatz. Es enthält 43.253 kurze Audioclips eines einzelnen Sprechers, der 14 neuartige Bücher liest. Das Format der Metadaten ähnelt dem der LJ -Sprache, so dass der Datensatz mit modernen Sprachsynthesesystemen kompatibel ist.
Die Texte stammen von Aozora Bunko, das öffentlich zugänglich ist. Die Audioclips stammen aus dem Librivox -Projekt, das ebenfalls öffentlich zugänglich ist. Die Messwerte werden durch Mecab und Unidic Lite aus dem Kanji-kana-Mischtext geschätzt. Die Messwerte sind romanisiert, die dem von Julius verwendeten Format ähnlich sind.
Die Audioclips wurden geteilt und die Transkripte automatisch von Kokoro-Align ausgerichtet.
Hören Sie aus Ihrem Browser oder laden Sie zufällig 100 Clips herunter.
Metadaten sind in metadata.csv bereitgestellt. Diese Datei besteht aus einem Datensatz pro Zeile, der durch das Rohrcharakter (0x7c) abgegrenzt wurde. Die Felder sind:
Jede Audio-Datei ist eine 16-Bit-PCM-WAV mit einem Kanal mit einer Stichprobenrate von 22050 Hz.
Der Datensatz ist in verschiedenen Größen, xlarge , large , small , tiny . large , small und tiny teilen keine gleichen Clips. xlarge enthält alle verfügbaren Clips, einschließlich large , small und tiny .
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
Aufgrund seiner großen Datengröße des Datensatzes sind Audiodateien in diesem Repository nicht enthalten, die Metadaten sind jedoch enthalten.
Um .wav -Dateien des Datensatzes zu erstellen, laufen
$ bash download.sh
So laden Sie die Metadaten von der Projektseite herunter. Dann rennen
$ pip3 install torchaudio
$ python3 extract.py --size tiny
Dies druckt ein Shell -Skript -Beispiel zum Herunterladen von MP3 -Audio -Dateien von archive.org und extrahiert, wenn Sie es noch nicht getan haben.
Danach führen Sie den Befehl erneut aus
$ python3 extract.py --size tiny
um Dateien für tiny ./output -Verzeichnis zu erhalten.
Sie können der Option --size einen weiteren Größennamen geben, um den Datensatz der Größe zu erhalten.
Sie können das Audio -Clip -Format in der Option --format angeben.
Das vorbereitete Tacotron -Modell, das mit Kokoro -Sprachdatensatz und Audio -Proben trainiert ist, sind verfügbar. Das Modell wurde für 21.000 Schritte mit small geschult. Laut dem obigen Repo wurde "Sprache mit dem LJ -Sprachdatensatz um 20.000 Schritte verständlich. Audio -Samples lesen die ersten Sätze von Gon Gitsune, die nicht in small enthalten sind.
Der Datensatz enthält Aufzeichnungen aus diesen Büchern, die von Ekzemplaro gelesen wurden
Dieses Projekt wurde auch von CSS10 inspiriert, das Audioclips verschiedener Sprachen aus Librivox enthält.
Alle Texte stammen von Aozora Bunko. Aufnahmen von Ekzemplaro von Librivox. Ausrichtung und Annotation von Katsuya Iida.
Dieser Datensatz ist in den USA (und höchstwahrscheinlich auch andere Länder) öffentlich zugänglich. Es gibt keine Einschränkungen für die Verwendung. Weitere Informationen finden Sie unter: librivox.org/pages/public-domain.