Dieses Repo ist eine Sammlung von Sprachkorpus für die automatische Spracherkennung (ASR) und Text-to-Speech (TTS).
Vctk
Um 10,4 GB. Alternativer Gastgeber
Librispeech
Großer Anteil (1000 Stunden) Korpus der englischen Sprache.
TEDLIUM FILD 2
Der TED-Lium Corpus wurde aus Audiogesprächen und ihren Transkriptionen auf der TED-Website durchgeführt. Die Autoren haben diese Daten vorbereitet und gefiltert, um akustische Modelle für die Teilnahme am internationalen Workshop zur Übersetzung von Spoken Language 2011 zu schulen (das Lium English/French SLT -System erreichte den ersten Rang in der SLT -Aufgabe).
CMU Arctic -Datenbanken
Die Datenbanken bestehen aus rund 1150 Äußerungen, darunter den englischen US -amerikanischen männlichen (BDL) und weiblichen (SLT) -Prautsprechern sowie andere Akzentredner.
Die Welt englische Bibel
Die World English Bible ist ein Public -Domain -Update der amerikanischen Standardversion von 1901 in das moderne Englisch. Seine Text- und Audioaufnahmen sind hier frei vable. Leider entspricht jede der Audio -Dateien mit einem Kapitel, nicht einem Vers, also ist dies in den meisten Fällen zu lang. Kyubyong schnitt sie manuell durch Verse. Sie können sie auf seine Dropbox bekommen.
Nancy Corpus
Der Nancy Corpus von der Blizzard Challenge 2011. Die Daten sind für die Forschungsnutzung bei der Unterzeichnung einer Lizenz frei verfügbar.
Yunchao er
Weibo