Kokoro Speech Dataset Download - Kokoro Speech Dataset Quellcode Download

Kokoro Speech Dataset

AI-Quellcode

Keep word separators in transcripts with '_'

Herunterladen

Kokoro Sprachdatensatz

Kokoro Speech Dataset ist ein öffentlich zugänglicher japanischer Sprachdatensatz. Es enthält 43.253 kurze Audioclips eines einzelnen Sprechers, der 14 neuartige Bücher liest. Das Format der Metadaten ähnelt dem der LJ -Sprache, so dass der Datensatz mit modernen Sprachsynthesesystemen kompatibel ist.

Die Texte stammen von Aozora Bunko, das öffentlich zugänglich ist. Die Audioclips stammen aus dem Librivox -Projekt, das ebenfalls öffentlich zugänglich ist. Die Messwerte werden durch Mecab und Unidic Lite aus dem Kanji-kana-Mischtext geschätzt. Die Messwerte sind romanisiert, die dem von Julius verwendeten Format ähnlich sind.

Die Audioclips wurden geteilt und die Transkripte automatisch von Kokoro-Align ausgerichtet.

Beispieldaten

Hören Sie aus Ihrem Browser oder laden Sie zufällig 100 Clips herunter.

Dateiformat

Metadaten sind in metadata.csv bereitgestellt. Diese Datei besteht aus einem Datensatz pro Zeile, der durch das Rohrcharakter (0x7c) abgegrenzt wurde. Die Felder sind:

ID: Dies ist der Name der entsprechenden .wav -Datei
Transkription: Kanji-kana-Mischtext vom Leser gesprochen (UTF-8)
Lesen: Romanisierter Text vom Leser gesprochen (UTF-8)

Jede Audio-Datei ist eine 16-Bit-PCM-WAV mit einem Kanal mit einer Stichprobenrate von 22050 Hz.

Statistiken

Der Datensatz ist in verschiedenen Größen, xlarge , large , small , tiny . large , small und tiny teilen keine gleichen Clips. xlarge enthält alle verfügbaren Clips, einschließlich large , small und tiny .

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

So erhalten Sie die Daten

Aufgrund seiner großen Datengröße des Datensatzes sind Audiodateien in diesem Repository nicht enthalten, die Metadaten sind jedoch enthalten.

Um .wav -Dateien des Datensatzes zu erstellen, laufen

 $ bash download.sh

So laden Sie die Metadaten von der Projektseite herunter. Dann rennen

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

Dies druckt ein Shell -Skript -Beispiel zum Herunterladen von MP3 -Audio -Dateien von archive.org und extrahiert, wenn Sie es noch nicht getan haben.

Danach führen Sie den Befehl erneut aus

 $ python3 extract.py --size tiny

um Dateien für tiny ./output -Verzeichnis zu erhalten.

Sie können der Option --size einen weiteren Größennamen geben, um den Datensatz der Größe zu erhalten.

Sie können das Audio -Clip -Format in der Option --format angeben.

Vorbereitete Tacotron -Modell

Audio -Samples
Vorbereitetes Modell

Das vorbereitete Tacotron -Modell, das mit Kokoro -Sprachdatensatz und Audio -Proben trainiert ist, sind verfügbar. Das Modell wurde für 21.000 Schritte mit small geschult. Laut dem obigen Repo wurde "Sprache mit dem LJ -Sprachdatensatz um 20.000 Schritte verständlich. Audio -Samples lesen die ersten Sätze von Gon Gitsune, die nicht in small enthalten sind.

Bücher

Der Datensatz enthält Aufzeichnungen aus diesen Büchern, die von Ekzemplaro gelesen wurden

明暗 (Meian) 16:39:29 Online -Text
こころ (Kokoro) 08:46:41 Online -Text
田舎教師 (Inaka Kyoshi) 08:13:26 Online -Text
野分 (nowaki) 4:40:49 Online -Text
草枕 (kusamakura) 04:27:35 Online -Text
坊っちゃん (Botchan) 04:26:27 Online -Text
雁 (Gan) 03:41:31 Online -Text
生まれいずる悩み (Umareizuru Nayami) 2:43:12 Online -Text
硝子戸の中 (Garasudono Uchi) 2:39:53 Online -Text
永日小品 (eijitsu syohin) 2:33:54 Online -Text
蒲団 (Futon) 2:28:58 Online -Text
高野聖 (Kouyahijiri) 2:06:23 Online -Text
ごん狐 (Gon Gitsune) 0:15:42 Online -Text
コーカサスの禿鷹 (Kaukasus no Hagetaka) 0:13:04 Online -Text

Changelog

v1.3 Halten Sie Worttrenngeräte in Transkripten mit '_' auf
V1.2 Neue Metadaten, die mit einem neuen Align -Modell erzeugt wurden
v1.1.1 FLAC, MP3, OGG Support hinzugefügt
v1.1 fügte mehr Bücher hinzu
V1.0 Erstveröffentlichung

Credits

Alle Texte stammen von Aozora Bunko. Aufnahmen von Ekzemplaro von Librivox. Ausrichtung und Annotation von Katsuya Iida.

Lizenz

Dieser Datensatz ist in den USA (und höchstwahrscheinlich auch andere Länder) öffentlich zugänglich. Es gibt keine Einschränkungen für die Verwendung. Weitere Informationen finden Sie unter: librivox.org/pages/public-domain.

Expandieren

Zusätzliche Informationen