Kokoro Speech DataSet es un conjunto de datos de discurso japonés de dominio público. Contiene 43,253 clips de audio cortos de un solo orador que lee 14 libros novedosos. El formato de los metadatos es similar al del discurso LJ para que el conjunto de datos sea compatible con los sistemas modernos de síntesis del habla.
Los textos son de Aozora Bunko, que se encuentra en el dominio público. Los clips de audio son del proyecto Librivox, que también se encuentra en el dominio público. Las lecturas se estiman por Mecab y Unidic Lite del texto de la mezcla Kanji-Kana. Las lecturas son romanizadas que son similares al formato utilizado por Julius.
Los clips de audio se dividieron y las transcripciones fueron alineadas automáticamente por Kokoro-Align.
Escuche desde su navegador o descargue 100 clips muestreados al azar.
Los metadatos se proporcionan en metadata.csv . Este archivo consta de un registro por línea, delimitado por el carácter de la tubería (0x7c). Los campos son:
Cada archivo de audio es un WAV PCM de 16 bits de un solo canal con una frecuencia de muestreo de 22050 Hz.
El conjunto de datos se proporciona en diferentes tamaños, xlarge , large , small , tiny . large , small y tiny no comparten los mismos clips. xlarge contiene todos los clips disponibles, incluidos large , small y tiny .
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
Debido a su gran tamaño de datos del conjunto de datos, los archivos de audio no se incluyen en este repositorio, pero los metadatos están incluidos.
Para hacer archivos .wav del conjunto de datos, ejecutar
$ bash download.sh
Para descargar los metadatos de la página del proyecto. Luego corre
$ pip3 install torchaudio
$ python3 extract.py --size tiny
Esto imprime un ejemplo de script de shell para descargar archivos de audio mp3 de archive.org y extraerlos si aún no lo ha hecho.
Después de hacerlo, ejecute el comando nuevamente
$ python3 extract.py --size tiny
Para obtener archivos para tiny Under ./output Directory.
Puede dar otro nombre de tamaño a la opción --size para obtener el conjunto de datos del tamaño.
Puede especificar el formato de clip de audio a la opción --format .
El modelo Tacotron previamente entrenado con el conjunto de datos de discurso de Kokoro y las muestras de audio están disponibles. El modelo fue entrenado para 21k pasos con small . Según el repositorio anterior, "el discurso comenzó a ser inteligible en torno a 20k pasos" con el conjunto de datos de discurso LJ. Las muestras de audio leen las primeras oraciones de Gon Gitsune que no se incluye en small .
El conjunto de datos contiene grabaciones de estos libros leídos por Ekzemplaro
Este proyecto también se inspiró en CSS10, que contiene clips de audio de varios idiomas de Librivox.
Todos los textos son de Aozora Bunko. Grabaciones de Ekzemplaro de Librivox. Alineación y anotación de Katsuya Iida.
Este conjunto de datos se encuentra en el dominio público en los Estados Unidos (y probablemente otros países también). No hay restricciones en su uso. Para obtener más información, consulte: librivox.org/pages/public-domain.