Download Kokoro Speech Dataset - Kokoro Speech Dataset Download do código -fonte

Kokoro Speech Dataset

Código-Fonte de IA

Keep word separators in transcripts with '_'

Baixar

Conjunto de dados de discursos Kokoro

O conjunto de dados de discursos Kokoro é um conjunto de dados de discurso de discurso japonês de domínio público. Ele contém 43.253 clipes de áudio curtos de um único alto -falante lendo 14 novos livros. O formato dos metadados é semelhante ao da fala de LJ, para que o conjunto de dados seja compatível com os modernos sistemas de síntese de fala.

Os textos são de Aozora Bunko, que é em domínio público. Os clipes de áudio são do Librivox Project, que também é de domínio público. As leituras são estimadas por Mecab e Lite Unidic a partir do texto da mistura Kanji-Kana. São leituras romanizadas, que são semelhantes ao formato usado por Júlio.

Os clipes de áudio foram divididos e as transcrições foram alinhadas automaticamente pelo Kokoro-Align.

Dados de amostra

Ouça do seu navegador ou faça o download de 100 clipes de amostragem aleatória.

Formato de arquivo

Os metadados são fornecidos em metadata.csv . Este arquivo consiste em um registro por linha, delimitado pelo caractere do tubo (0x7c). Os campos são:

ID: Este é o nome do arquivo .wav correspondente
Transcrição: Kanji-kana Mixture Text falado pelo leitor (UTF-8)
Leitura: texto romanizado falado pelo leitor (UTF-8)

Cada arquivo de áudio é um WAV PCM de 16 bits de canal único com uma taxa de amostragem de 22050 Hz.

Estatística

O conjunto de dados é fornecido em tamanhos diferentes, xlarge , large , small , tiny . large , small e tiny não compartilham os mesmos clipes. xlarge contém todos os clipes disponíveis, incluindo large , small e tiny .

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

Como obter os dados

Devido ao seu grande tamanho de dados do conjunto de dados, os arquivos de áudio não estão incluídos neste repositório, mas os metadados estão incluídos.

Para fazer arquivos .wav do conjunto de dados, execute

 $ bash download.sh

Para baixar os metadados na página do projeto. Em seguida, corra

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

Isso imprime um exemplo de script do Shell para baixar arquivos de áudio MP3 do Archive.org e extraí -los se você ainda não o fez.

Depois de fazer isso, execute o comando novamente

 $ python3 extract.py --size tiny

Para obter arquivos para tiny em ./output Directory.

Você pode fornecer outro nome de tamanho à opção --size para obter o conjunto de dados do tamanho.

Você pode especificar o formato de clipe de áudio para a opção --format .

Modelo de tacotron pré -treinado

Amostras de áudio
Modelo pré -terenciado

Modelo de tacotron pré -treinado treinado com conjunto de dados de fala Kokoro e amostras de áudio estão disponíveis. O modelo foi treinado para 21k etapas com small . De acordo com o repositório acima, "o discurso começou a se tornar inteligível em torno de 20 mil etapas" com o conjunto de dados de fala da LJ. As amostras de áudio leem as primeiras frases de Gon Gitsune, que não estão incluídas em small .

Livros

O conjunto de dados contém gravações desses livros lidos por EkzemPlaro

明暗 (Meian) 16:39:29 Texto online
こころ (Kokoro) 08:46:41 Texto online
田舎教師 (Inaka Kyoshi) 08:13:26 Texto online
野分 (Nowaki) 4:40:49 Texto online
草枕 (Kusamakura) 04:27:35 Texto online
坊っちゃん (Botchan) 04:26:27 Texto online
雁 (gan) 03:41:31 Texto online
生まれいずる悩み (Umareizuru Nayami) 2:43:12 Texto online
硝子戸の中 (Garasudono uchi) 2:39:53 Texto online
永日小品 (Eijitsu Syohin) 2:33:54 Texto online
蒲団 (futon) 2:28:58 Texto online
高野聖 (Kouyahijiri) 2:06:23 Texto online
ごん狐 (Gon Gitsune) 0:15:42 Texto online
コーカサスの禿鷹 (Cáucaso no Hagetaka) 0:13:04 Texto online

Projeto semelhante

Este projeto também foi inspirado no CSS10, que contém clipes de áudio de vários idiomas do Librivox.

Changelog

v1.3 Mantenha os separadores de palavras em transcrições com '_'
v1.2 Novos metadados gerados com um novo modelo alinhado
v1.1.1 Adicionado FLAC, MP3, suporte OGG
v1.1 adicionou mais livros
V1.0 Lançamento inicial

Créditos

Todos os textos são de Aozora Bunko. Gravações de EkzempleO da Librivox. Alinhamento e anotação de Katsuya Iida.

Licença

Esse conjunto de dados está em domínio público nos EUA (e provavelmente outros países também). Não há restrições ao seu uso. Para mais informações, consulte: librivox.org/pages/public-domain.

Expandir

Informações adicionais

Versão Keep word separators in transcripts with '_'
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-23
tamanho 6.61KB
Vindo de Github

Aplicativos Relacionados

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos