repo นี้เป็นคอลเลกชันของคลังข้อมูลสำหรับการรู้จำเสียงพูดอัตโนมัติ (ASR) และข้อความเป็นคำพูด (TTS)
VCTK
ประมาณ 10.4GB โฮสต์ทางเลือก
librispeech
คลังข้อมูลขนาดใหญ่ (1,000 ชั่วโมง) ของการอ่านคำพูดภาษาอังกฤษ
Tedlium release 2
Ted-lium corpus ทำจากการเจรจาด้านเสียงและการถอดความของพวกเขาที่มีอยู่ในเว็บไซต์ TED ผู้เขียนได้เตรียมและกรองข้อมูลเหล่านี้เพื่อฝึกอบรมโมเดลอะคูสติกเพื่อเข้าร่วมการประชุมเชิงปฏิบัติการระหว่างประเทศเกี่ยวกับการแปลภาษาพูด 2011 (ระบบ LIUM English/French SLT มาถึงอันดับแรกในงาน SLT)
ฐานข้อมูล CMU Arctic
ฐานข้อมูลประกอบด้วยคำพูดประมาณ 1,150 คำรวมถึง US English Male (BDL) และลำโพงหญิง (SLT) รวมถึงลำโพงที่เน้นเสียงอื่น ๆ
พระคัมภีร์ภาษาอังกฤษโลก
World English Bible เป็นการอัปเดตโดเมนสาธารณะของเวอร์ชันมาตรฐานอเมริกันในปี 1901 เป็นภาษาอังกฤษสมัยใหม่ การบันทึกข้อความและเสียงของมันสามารถใช้งานได้อย่างอิสระที่นี่ อย่างไรก็ตามน่าเสียดายที่ไฟล์เสียงแต่ละไฟล์ตรงกับบทไม่ใช่ข้อดังนั้นในกรณีส่วนใหญ่นานเกินไป Kyubyong หั่นพวกเขาด้วยบทกวีด้วยตนเอง คุณสามารถรับพวกเขาใน Dropbox ของเขา
แนนซี่คอร์ปัส
Nancy Corpus จาก 2011 Blizzard Challenge ข้อมูลมีประโยชน์อย่างอิสระสำหรับการใช้งานวิจัยเกี่ยวกับการลงนามในใบอนุญาต
Yunchao เขา
Weibo