L'ensemble de données de discours Kokoro est un ensemble de données de discours japonais de domaine public. Il contient 43 253 clips audio courts d'un seul haut-parleur lisant 14 livres de romans. Le format des métadonnées est similaire à celui de la parole LJ afin que l'ensemble de données soit compatible avec les systèmes de synthèse de la parole modernes.
Les textes proviennent d'Aozora Bunko, qui se trouve dans le domaine public. Les clips audio proviennent du projet Librivox, qui se trouve également dans le domaine public. Les lectures sont estimées par MECAB et Unidic Lite à partir du texte du mélange Kanji-Kana. Les lectures sont romanisées qui sont similaires au format utilisé par Julius.
Les clips audio ont été divisés et les transcriptions ont été alignées automatiquement par Kokoro-Align.
Écoutez de votre navigateur ou téléchargez 100 clips échantillonnés au hasard.
Les métadonnées sont fournies dans metadata.csv . Ce fichier se compose d'un enregistrement par ligne, délimité par le caractère de tuyau (0x7c). Les champs sont:
Chaque fichier audio est un WAV PCM 16 bits à canal unique avec une fréquence d'échantillonnage de 22050 Hz.
L'ensemble de données est fourni en différentes tailles, xlarge , large , small , tiny . large , small et tiny ne partagent pas les mêmes clips. xlarge contient tous les clips disponibles, y compris large , small et tiny .
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
En raison de sa grande taille de données de l'ensemble de données, les fichiers audio ne sont pas inclus dans ce référentiel, mais les métadonnées sont incluses.
Pour fabriquer des fichiers .wav de l'ensemble de données, exécutez
$ bash download.sh
Pour télécharger les métadonnées à partir de la page du projet. Puis courez
$ pip3 install torchaudio
$ python3 extract.py --size tiny
Cela imprime un exemple de script shell pour télécharger des fichiers audio MP3 à partir d'archive.org et les extraire si vous ne l'avez pas déjà fait.
Après cela, exécutez à nouveau la commande
$ python3 extract.py --size tiny
Pour obtenir des fichiers pour tiny Under ./output Directory.
Vous pouvez donner un autre nom de taille à l'option --size pour obtenir un ensemble de données de la taille.
Vous pouvez spécifier le format de clip audio à l'option --format .
Un modèle de tacotron pré-entraîné formé avec un ensemble de données de discours Kokoro et des échantillons audio sont disponibles. Le modèle a été formé pour 21 000 pas avec small . Selon le dépôt ci-dessus, "le discours a commencé à devenir intelligible autour de 20 000 étapes" avec un ensemble de données de discours LJ. Des échantillons audio lisent les premières phrases de Gon Gitsune qui ne sont pas incluses dans small .
L'ensemble de données contient des enregistrements de ces livres lus par Ekzemplaroo
Ce projet a également été inspiré par CSS10, qui contient des clips audio de diverses langues de Librivox.
Tous les textes proviennent d'Aozora Bunko. Enregistrements d'Ekzemplaroo de Librivox. Alignement et annotation par Katsuya Iida.
Cet ensemble de données est dans le domaine public aux États-Unis (et très probablement d'autres pays également). Il n'y a aucune restriction sur son utilisation. Pour plus d'informations, veuillez consulter: Librivox.org/pages/public-domain.