Descarga Kokoro Speech Dataset - Código fuente Kokoro Speech Dataset Descargar el código fuente del conjunto

Kokoro Speech Dataset

Código Fuente de IA

Keep word separators in transcripts with '_'

Descargar

Conjunto de datos de discurso de Kokoro

Kokoro Speech DataSet es un conjunto de datos de discurso japonés de dominio público. Contiene 43,253 clips de audio cortos de un solo orador que lee 14 libros novedosos. El formato de los metadatos es similar al del discurso LJ para que el conjunto de datos sea compatible con los sistemas modernos de síntesis del habla.

Los textos son de Aozora Bunko, que se encuentra en el dominio público. Los clips de audio son del proyecto Librivox, que también se encuentra en el dominio público. Las lecturas se estiman por Mecab y Unidic Lite del texto de la mezcla Kanji-Kana. Las lecturas son romanizadas que son similares al formato utilizado por Julius.

Los clips de audio se dividieron y las transcripciones fueron alineadas automáticamente por Kokoro-Align.

Muestra de datos

Escuche desde su navegador o descargue 100 clips muestreados al azar.

Formato de archivo

Los metadatos se proporcionan en metadata.csv . Este archivo consta de un registro por línea, delimitado por el carácter de la tubería (0x7c). Los campos son:

ID: este es el nombre del archivo .wav correspondiente
Transcripción: texto de mezcla Kanji-Kana hablado por el lector (UTF-8)
Lectura: texto romanizado hablado por el lector (UTF-8)

Cada archivo de audio es un WAV PCM de 16 bits de un solo canal con una frecuencia de muestreo de 22050 Hz.

Estadística

El conjunto de datos se proporciona en diferentes tamaños, xlarge , large , small , tiny . large , small y tiny no comparten los mismos clips. xlarge contiene todos los clips disponibles, incluidos large , small y tiny .

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

Cómo obtener los datos

Debido a su gran tamaño de datos del conjunto de datos, los archivos de audio no se incluyen en este repositorio, pero los metadatos están incluidos.

Para hacer archivos .wav del conjunto de datos, ejecutar

 $ bash download.sh

Para descargar los metadatos de la página del proyecto. Luego corre

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

Esto imprime un ejemplo de script de shell para descargar archivos de audio mp3 de archive.org y extraerlos si aún no lo ha hecho.

Después de hacerlo, ejecute el comando nuevamente

 $ python3 extract.py --size tiny

Para obtener archivos para tiny Under ./output Directory.

Puede dar otro nombre de tamaño a la opción --size para obtener el conjunto de datos del tamaño.

Puede especificar el formato de clip de audio a la opción --format .

Modelo de tacotrón previamente

Muestras de audio
Modelo previamente

El modelo Tacotron previamente entrenado con el conjunto de datos de discurso de Kokoro y las muestras de audio están disponibles. El modelo fue entrenado para 21k pasos con small . Según el repositorio anterior, "el discurso comenzó a ser inteligible en torno a 20k pasos" con el conjunto de datos de discurso LJ. Las muestras de audio leen las primeras oraciones de Gon Gitsune que no se incluye en small .

Libros

El conjunto de datos contiene grabaciones de estos libros leídos por Ekzemplaro

明暗 (Meian) 16:39:29 Texto en línea
こころ (Kokoro) 08:46:41 Texto en línea
田舎教師 (Inaka Kyoshi) 08:13:26 Texto en línea
野分 (Nowaki) 4:40:49 Texto en línea
草枕 (Kusamakura) 04:27:35 Texto en línea
坊っちゃん (Botchan) 04:26:27 Texto en línea
雁 (gan) 03:41:31 Texto en línea
生まれいずる悩み (Umarizuru Nayami) 2:43:12 Texto en línea
硝子戸の中 (Garasudono Uchi) 2:39:53 Texto en línea
永日小品 (Eijitsu Syohin) 2:33:54 Texto en línea
蒲団 (futón) 2:28:58 Texto en línea
高野聖 (Kouyahijiri) 2:06:23 Texto en línea
ごん狐 (Gon Gitsune) 0:15:42 Texto en línea
コーカサスの禿鷹 (Cáucaso no Hagetaka) 0:13:04 Texto en línea

Proyecto similar

Este proyecto también se inspiró en CSS10, que contiene clips de audio de varios idiomas de Librivox.

Colegio de cambios

v1.3 Mantenga los separadores de palabras en transcripciones con '_'
V1.2 Nuevos metadatos generados con un nuevo modelo de alineación
V1.1.1 Se agregó FLAC, MP3, OGG Soporte
v1.1 agregó más libros
Liberación inicial V1.0

Créditos

Todos los textos son de Aozora Bunko. Grabaciones de Ekzemplaro de Librivox. Alineación y anotación de Katsuya Iida.

Licencia

Este conjunto de datos se encuentra en el dominio público en los Estados Unidos (y probablemente otros países también). No hay restricciones en su uso. Para obtener más información, consulte: librivox.org/pages/public-domain.

Expandir

Información adicional

Versión Keep word separators in transcripts with '_'
Tipo Código Fuente de IA
Fecha de actualización 2025-08-23
tamaño 6.61KB
Proviene de Github

Aplicaciones relacionadas

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo