Repo ini adalah kumpulan corpus ucapan untuk pengenalan ucapan otomatis (ASR) dan teks-ke-pidato (TTS).
Vctk
Sekitar 10.4GB. Tuan rumah alternatif
Librispeech
Corpus berskala besar (1000 jam) dari pidato bahasa Inggris baca.
Rilis Tedlium 2
TED-LIM Corpus dibuat dari pembicaraan audio dan transkripsi mereka tersedia di situs web TED. Para penulis telah menyiapkan dan memfilter data ini untuk melatih model akustik untuk berpartisipasi dalam lokakarya internasional tentang terjemahan bahasa lisan 2011 (sistem Lium English/Prancis SLT mencapai peringkat pertama dalam tugas SLT).
Database Arktik CMU
Database terdiri dari sekitar 1.150 ucapan, termasuk penutur AS Inggris (BDL) dan wanita (SLT), serta penutur beraksen lainnya.
Alkitab Bahasa Inggris Dunia
The World English Bible adalah pembaruan domain publik dari versi Standar Amerika tahun 1901 menjadi bahasa Inggris modern. Rekaman teks dan audio -nya secara bebas tersedia di sini. Sayangnya, bagaimanapun, masing -masing file audio cocok dengan satu bab, bukan ayat, jadi terlalu lama dalam kebanyakan kasus. Kyubyong mengirisnya dengan ayat secara manual. Anda bisa mendapatkannya di dropbox -nya.
Nancy Corpus
Nancy Corpus dari Blizzard Challenge 2011. Data tersebut tersedia secara bebas untuk penggunaan penelitian pada penandatanganan lisensi.
Yunchao he
Weibo