Этот репо является коллекцией речевого корпуса для автоматического распознавания речи (ASR) и текста в речь (TTS).
VCTK
Около 10,4 ГБ. Альтернативный хост
Librispeech
Крупномасштабное (1000 часов) корпус чтения английской речи.
Тедлиевый выпуск 2
Корпус TED-Lium был сделан из аудио-переговоров и их транскрипций, доступных на веб-сайте TED. Авторы подготовили и отфильтровали эти данные для обучения акустических моделей для участия в Международном семинаре по переводу разговорного языка 2011 год (система Lium English/French SLT достигла первого ранга в задаче SLT).
CMU Арктические базы данных
Базы данных состоят из высказываний примерно 1150, в том числе английские мужчины (BDL) и женские (SLT), а также другие ораторы с акцентом.
Всемирная английская Библия
Всемирная английская Библия - это обновление общедоступного достояния американской стандартной версии 1901 года на современный английский. Его текстовые и аудиозаписи здесь свободно доступны. К сожалению, однако, каждый из аудиофайлов соответствует главе, а не стиху, поэтому в большинстве случаев слишком долго. Кьюбинг нарезал их стихом вручную. Вы можете получить их на его Dropbox.
Нэнси Корпус
Nancy Corpus из Blizzard Challenge 2011 года. Данные свободно доступны для исследования при подписании лицензии.
Yunchao он
Вейбо