O conjunto de dados de discursos Kokoro é um conjunto de dados de discurso de discurso japonês de domínio público. Ele contém 43.253 clipes de áudio curtos de um único alto -falante lendo 14 novos livros. O formato dos metadados é semelhante ao da fala de LJ, para que o conjunto de dados seja compatível com os modernos sistemas de síntese de fala.
Os textos são de Aozora Bunko, que é em domínio público. Os clipes de áudio são do Librivox Project, que também é de domínio público. As leituras são estimadas por Mecab e Lite Unidic a partir do texto da mistura Kanji-Kana. São leituras romanizadas, que são semelhantes ao formato usado por Júlio.
Os clipes de áudio foram divididos e as transcrições foram alinhadas automaticamente pelo Kokoro-Align.
Ouça do seu navegador ou faça o download de 100 clipes de amostragem aleatória.
Os metadados são fornecidos em metadata.csv . Este arquivo consiste em um registro por linha, delimitado pelo caractere do tubo (0x7c). Os campos são:
Cada arquivo de áudio é um WAV PCM de 16 bits de canal único com uma taxa de amostragem de 22050 Hz.
O conjunto de dados é fornecido em tamanhos diferentes, xlarge , large , small , tiny . large , small e tiny não compartilham os mesmos clipes. xlarge contém todos os clipes disponíveis, incluindo large , small e tiny .
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
Devido ao seu grande tamanho de dados do conjunto de dados, os arquivos de áudio não estão incluídos neste repositório, mas os metadados estão incluídos.
Para fazer arquivos .wav do conjunto de dados, execute
$ bash download.sh
Para baixar os metadados na página do projeto. Em seguida, corra
$ pip3 install torchaudio
$ python3 extract.py --size tiny
Isso imprime um exemplo de script do Shell para baixar arquivos de áudio MP3 do Archive.org e extraí -los se você ainda não o fez.
Depois de fazer isso, execute o comando novamente
$ python3 extract.py --size tiny
Para obter arquivos para tiny em ./output Directory.
Você pode fornecer outro nome de tamanho à opção --size para obter o conjunto de dados do tamanho.
Você pode especificar o formato de clipe de áudio para a opção --format .
Modelo de tacotron pré -treinado treinado com conjunto de dados de fala Kokoro e amostras de áudio estão disponíveis. O modelo foi treinado para 21k etapas com small . De acordo com o repositório acima, "o discurso começou a se tornar inteligível em torno de 20 mil etapas" com o conjunto de dados de fala da LJ. As amostras de áudio leem as primeiras frases de Gon Gitsune, que não estão incluídas em small .
O conjunto de dados contém gravações desses livros lidos por EkzemPlaro
Este projeto também foi inspirado no CSS10, que contém clipes de áudio de vários idiomas do Librivox.
Todos os textos são de Aozora Bunko. Gravações de EkzempleO da Librivox. Alinhamento e anotação de Katsuya Iida.
Esse conjunto de dados está em domínio público nos EUA (e provavelmente outros países também). Não há restrições ao seu uso. Para mais informações, consulte: librivox.org/pages/public-domain.