Ce repo est une collection de corpus de la parole pour la reconnaissance automatique de la parole (ASR) et le texte-vocation (TTS).
Vctk
Environ 10,4 Go. Hôte alternatif
Bibliothèque
Corpus à grande échelle (1000 heures) de discours de lecture en anglais.
Tedlium Release 2
Le Corpus Ted-Lium a été effectué à partir de pourparlers audio et de leurs transcriptions disponibles sur le site Web de TED. Les auteurs ont préparé et filtré ces données afin de former des modèles acoustiques à participer à l'atelier international sur la traduction de la langue parlée 2011 (le système SLT anglais / français a atteint le premier rang de la tâche SLT).
Bases de données CMU Arctic
Les bases de données sont composées d'environ 1150 énoncés, dont des haut-parleurs de mâle anglais américain (BDL) et féminins (SLT), ainsi que d'autres haut-parleurs accentués.
La Bible anglaise du monde
The World English Bible est une mise à jour du domaine public de la version standard américaine de 1901 en anglais moderne. Ses enregistrements de texte et d'audio sont librement avariables ici. Malheureusement, cependant, chacun des fichiers audio correspond à un chapitre, pas un verset, il est donc trop long dans la plupart des cas. Kyubyong les a tranchés par verset manuellement. Vous pouvez les mettre sur sa Dropbox.
Nancy Corpus
Le Nancy Corpus du Blizzard Challenge 2011. Les données sont librement disponibles pour la recherche sur la signature d'une licence.
Yunchao he
Weibo