Speech Corpus Collection Speech Corpus Collection

Baixar

Coleta de fala-corpus

Este repositório é uma coleção de corpus de fala para reconhecimento automático de fala (ASR) e Text-to-Speal (TTS).

Vctk
Em torno de 10,4 GB. Host alternativo
Librispeech
Corpus em larga escala (1000 horas) do discurso de leitura em inglês.
Tedlium Release 2
O corpus do TED-Lium foi feito com negociações de áudio e suas transcrições disponíveis no site do TED. Os autores prepararam e filtraram esses dados para treinar modelos acústicos para participar do workshop internacional sobre a tradução de idiomas falados 2011 (o sistema Lium English/French SLT atingiu a primeira classificação na tarefa SLT).

Bancos de dados CMU Arctic
Os bancos de dados consistem em cerca de 1150 enunciados, incluindo os alto -falantes dos EUA (BDL) e feminino (SLT) dos EUA, além de outros falantes acentuados.
A Bíblia inglesa mundial
A Bíblia World English é uma atualização de domínio público da versão padrão americana de 1901 para o inglês moderno. Suas gravações de texto e áudio são gratuitas aqui. Infelizmente, no entanto, cada um dos arquivos de áudio corresponde a um capítulo, não um verso, então é muito longo na maioria dos casos. Kyubyong os cortou pelo verso manualmente. Você pode obtê -los em seu dropbox.
Nancy Corpus
O Nancy Corpus, do Blizzard Challenge de 2011. Os dados estão gratuitamente disponíveis para o uso da pesquisa sobre a assinatura de uma licença.

O conjunto de dados nsynth
Nsynth é um conjunto de dados de áudio que contém 305.979 notas musicais, cada uma com um passo exclusivo, timbre e envelope. Para 1.006 instrumentos de bibliotecas de amostras comerciais, geramos quatro segundos, trechos de áudio monofônicos de 16kHz, referidos como notas, variando em todos os pontos de um pian midi padrão O (21-108), bem como cinco velocidades diferentes (25, 50, 75, 100, 127). A nota foi realizada pelos três primeiros segundos e deixada decair pelo segundo final.