Téléchargement Kokoro Speech Dataset - Téléchargement du code source Kokoro Speech Dataset Téléchargement

Kokoro Speech Dataset

Code Source AI

Keep word separators in transcripts with '_'

Télécharger

Ensemble de données de discours de Kokoro

L'ensemble de données de discours Kokoro est un ensemble de données de discours japonais de domaine public. Il contient 43 253 clips audio courts d'un seul haut-parleur lisant 14 livres de romans. Le format des métadonnées est similaire à celui de la parole LJ afin que l'ensemble de données soit compatible avec les systèmes de synthèse de la parole modernes.

Les textes proviennent d'Aozora Bunko, qui se trouve dans le domaine public. Les clips audio proviennent du projet Librivox, qui se trouve également dans le domaine public. Les lectures sont estimées par MECAB et Unidic Lite à partir du texte du mélange Kanji-Kana. Les lectures sont romanisées qui sont similaires au format utilisé par Julius.

Les clips audio ont été divisés et les transcriptions ont été alignées automatiquement par Kokoro-Align.

Échantillons de données

Écoutez de votre navigateur ou téléchargez 100 clips échantillonnés au hasard.

Format de fichier

Les métadonnées sont fournies dans metadata.csv . Ce fichier se compose d'un enregistrement par ligne, délimité par le caractère de tuyau (0x7c). Les champs sont:

ID: Ceci est le nom du fichier .wav correspondant
Transcription: texte de mélange Kanji-Kana parlé par le lecteur (UTF-8)
Lecture: texte romanisé parlé par le lecteur (UTF-8)

Chaque fichier audio est un WAV PCM 16 bits à canal unique avec une fréquence d'échantillonnage de 22050 Hz.

Statistiques

L'ensemble de données est fourni en différentes tailles, xlarge , large , small , tiny . large , small et tiny ne partagent pas les mêmes clips. xlarge contient tous les clips disponibles, y compris large , small et tiny .

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

Comment obtenir les données

En raison de sa grande taille de données de l'ensemble de données, les fichiers audio ne sont pas inclus dans ce référentiel, mais les métadonnées sont incluses.

Pour fabriquer des fichiers .wav de l'ensemble de données, exécutez

 $ bash download.sh

Pour télécharger les métadonnées à partir de la page du projet. Puis courez

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

Cela imprime un exemple de script shell pour télécharger des fichiers audio MP3 à partir d'archive.org et les extraire si vous ne l'avez pas déjà fait.

Après cela, exécutez à nouveau la commande

 $ python3 extract.py --size tiny

Pour obtenir des fichiers pour tiny Under ./output Directory.

Vous pouvez donner un autre nom de taille à l'option --size pour obtenir un ensemble de données de la taille.

Vous pouvez spécifier le format de clip audio à l'option --format .

Modèle de tacotron pré-entraîné

Échantillons audio
Modèle pré-entraîné

Un modèle de tacotron pré-entraîné formé avec un ensemble de données de discours Kokoro et des échantillons audio sont disponibles. Le modèle a été formé pour 21 000 pas avec small . Selon le dépôt ci-dessus, "le discours a commencé à devenir intelligible autour de 20 000 étapes" avec un ensemble de données de discours LJ. Des échantillons audio lisent les premières phrases de Gon Gitsune qui ne sont pas incluses dans small .

Livres

L'ensemble de données contient des enregistrements de ces livres lus par Ekzemplaroo

明暗 (Meian) 16:39:29 Texte en ligne
こころ (Kokoro) 08:46:41 Texte en ligne
田舎教師 (Inaka Kyoshi) 08:13:26 Texte en ligne
野分 (Nowaki) 4:40:49 Texte en ligne
草枕 (Kusamakura) 04:27:35 Texte en ligne
坊っちゃん (Botchan) 04:26:27 Texte en ligne
雁 (Gan) 03:41:31 Texte en ligne
生まれいずる悩み (Umareizuru Nayami) 2:43:12 Texte en ligne
硝子戸の中 (Garasudono Uchi) 2:39:53 Texte en ligne
永日小品 (Eijitsu Syohin) 2:33:54 Texte en ligne
蒲団 (Futon) 2:28:58 Texte en ligne
高野聖 (Kouyahijiri) 2:06:23 Texte en ligne
ごん狐 (Gon Gitsune) 0:15:42 Texte en ligne
コーカサスの禿鷹 (Caucase no hagetaka) 0:13:04 Texte en ligne

Projet similaire

Ce projet a également été inspiré par CSS10, qui contient des clips audio de diverses langues de Librivox.

Changelog

v1.3 Gardez les séparateurs de mots dans les transcriptions avec '_'
v1.2 Nouvelles métadonnées générées avec un nouveau modèle d'alignement
v1.1.1 Ajout de flac, mp3, support ogg
v1.1 a ajouté plus de livres
V1.0 version initiale

Crédits

Tous les textes proviennent d'Aozora Bunko. Enregistrements d'Ekzemplaroo de Librivox. Alignement et annotation par Katsuya Iida.

Licence

Cet ensemble de données est dans le domaine public aux États-Unis (et très probablement d'autres pays également). Il n'y a aucune restriction sur son utilisation. Pour plus d'informations, veuillez consulter: Librivox.org/pages/public-domain.

Développer

Informations supplémentaires

Version Keep word separators in transcripts with '_'
Type Code Source AI
Date de mise à jour 2025-08-23
taille 6.61KB
Provenant de Github

Applications connexes

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout