Téléchargement Speech Corpus Collection - Speech Corpus Collection Téléchargement

Télécharger

Speech-corpus-collection

Ce repo est une collection de corpus de la parole pour la reconnaissance automatique de la parole (ASR) et le texte-vocation (TTS).

Vctk
Environ 10,4 Go. Hôte alternatif
Bibliothèque
Corpus à grande échelle (1000 heures) de discours de lecture en anglais.
Tedlium Release 2
Le Corpus Ted-Lium a été effectué à partir de pourparlers audio et de leurs transcriptions disponibles sur le site Web de TED. Les auteurs ont préparé et filtré ces données afin de former des modèles acoustiques à participer à l'atelier international sur la traduction de la langue parlée 2011 (le système SLT anglais / français a atteint le premier rang de la tâche SLT).

Bases de données CMU Arctic
Les bases de données sont composées d'environ 1150 énoncés, dont des haut-parleurs de mâle anglais américain (BDL) et féminins (SLT), ainsi que d'autres haut-parleurs accentués.
La Bible anglaise du monde
The World English Bible est une mise à jour du domaine public de la version standard américaine de 1901 en anglais moderne. Ses enregistrements de texte et d'audio sont librement avariables ici. Malheureusement, cependant, chacun des fichiers audio correspond à un chapitre, pas un verset, il est donc trop long dans la plupart des cas. Kyubyong les a tranchés par verset manuellement. Vous pouvez les mettre sur sa Dropbox.
Nancy Corpus
Le Nancy Corpus du Blizzard Challenge 2011. Les données sont librement disponibles pour la recherche sur la signature d'une licence.

L'ensemble de données NSYNTH
NSYNTH est un ensemble de données audio contenant 305 979 notes de musique, chacune avec une hauteur, un timbre et une enveloppe uniques. Pour 1 006 instruments de bibliothèques d'échantillons commerciaux, nous avons généré quatre secondes d'extraits audio monophoniques de 16 kHz, appelés notes, en allant sur chaque pas d'un pian midi standard (21-108) ainsi que cinq vitesses différentes (25, 50, 75, 100, 127). La note a été maintenue pendant les trois premières secondes et autorisée à se décomposer pour la dernière seconde.