هذا الريبو عبارة عن مجموعة من مجموعة الكلام للتعرف على الكلام التلقائي (ASR) ونص على الكلام (TTS).
VCTK
حوالي 10.4 جيجابايت. مضيف بديل
Librispeech
واسعة النطاق (1000 ساعة) مجموعة من القراءة الإنجليزية.
تيدليوم إطلاق 2
تم تصنيع Ted-Lium Corpus من محادثات صوتية ونسخها المتاحة على موقع TED. قام المؤلفون بإعداد وتصفية هذه البيانات من أجل تدريب النماذج الصوتية للمشاركة في ورشة العمل الدولية حول ترجمة اللغة المنطوقة 2011 (وصل نظام Lium English/French SLT إلى المرتبة الأولى في مهمة SLT).
قواعد بيانات CMU Arctic
تتألف قواعد البيانات من حوالي 1150 كلامًا ، بما في ذلك مكبرات الصوت الأمريكية الإنجليزية (BDL) والمتحدثين الإناث (SLT) ، بالإضافة إلى مكبرات صوت أخرى معلمة.
الكتاب المقدس للعالم الإنجليزي
يعد الكتاب المقدس الإنجليزي العالمي تحديثًا للمجال العام للنسخة القياسية الأمريكية لعام 1901 إلى اللغة الإنجليزية الحديثة. تسجيلات النص والصوت لها بحرية هنا. لسوء الحظ ، كل من ملفات الصوت يتطابق مع فصل ، وليس آية ، لذلك طويل جدًا في معظم الحالات. Kyubyong شرائحهم بواسطة الآية يدويًا. يمكنك الحصول عليها على Dropbox.
نانسي كوربوس
نانسي كوربوس من تحدي العاصفة الثلجية 2011. البيانات متاحة بحرية لاستخدام البحوث في توقيع الترخيص.
Yunchao هو
ويبو