Kokoro Cleep Dataset هي مجموعة بيانات الكلام اليابانية للمجال العام. أنه يحتوي على 43253 مقاطع صوتية قصيرة لمتحدث واحد يقرأ 14 كتابًا جديدًا. يشبه تنسيق البيانات الوصفية شكل خطاب LJ بحيث تكون مجموعة البيانات متوافقة مع أنظمة توليف الكلام الحديثة.
النصوص من Aozora Bunko ، والتي هي في المجال العام. مقاطع الصوت هي من مشروع Librivox ، وهو أيضًا في المجال العام. يتم تقدير القراءات بواسطة MECAB و Unidic Lite من نص خليط Kanji-Kana. القراءات رومانية تشبه التنسيق الذي تستخدمه يوليوس.
تم تقسيم مقاطع الصوت وتم محاذاة النصوص تلقائيًا بواسطة kokoro-align.
استمع من متصفحك أو قم بتنزيل مقاطع 100 مقاطع تم أخذ عينات منها بشكل عشوائي.
يتم توفير البيانات الوصفية في metadata.csv . يتكون هذا الملف من سجل واحد لكل سطر ، محدد بواسطة حرف الأنابيب (0x7C). الحقول هي:
كل ملف صوتي هو WAV من أحادي القناة 16 بت مع معدل عينة قدره 22050 هرتز.
يتم توفير مجموعة البيانات بأحجام مختلفة ، xlarge ، large ، small ، tiny . لا يشارك large ، small tiny نفس المقاطع. يحتوي xlarge على جميع المقاطع المتاحة ، بما في ذلك large small tiny .
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
نظرًا لحجم بياناتها الكبير لمجموعة البيانات ، لا يتم تضمين ملفات الصوت في هذا المستودع ، ولكن يتم تضمين البيانات الوصفية.
لجعل ملفات .wav من مجموعة البيانات ، قم بتشغيل
$ bash download.sh
لتنزيل البيانات الوصفية من صفحة المشروع. ثم ركض
$ pip3 install torchaudio
$ python3 extract.py --size tiny
يطبع هذا مثال SHELL SCRIPT لتنزيل ملفات الصوت MP3 من Archive.org واستخراجها إذا لم تكن قد فعلت ذلك بالفعل.
بعد القيام بذلك ، قم بتشغيل الأمر مرة أخرى
$ python3 extract.py --size tiny
للحصول على ملفات tiny تحت ./output Directory.
يمكنك إعطاء اسم آخر لحجم لخيار --size للحصول على مجموعة بيانات من الحجم.
يمكنك تحديد تنسيق مقطع الصوت إلى خيار --format .
تتوفر نموذج Tacotron المسبق المدربين مع مجموعة بيانات الكلام Kokoro وعينات الصوت. تم تدريب النموذج على 21K خطوة مع small . وفقًا لإعادة الريبو أعلاه ، "بدأ الكلام يصبح واضحًا حوالي 20 ألف خطوة" مع مجموعة بيانات الكلام LJ. تقرأ عينات الصوت الجمل القليلة الأولى من Gon Gitsune والتي لم يتم تضمينها في small .
تحتوي مجموعة البيانات على تسجيلات من هذه الكتب التي قرأها Ekzemplaro
استلهم هذا المشروع أيضًا من CSS10 ، والذي يحتوي على مقاطع صوتية من لغات مختلفة من Librivox.
جميع النصوص من Aozora Bunko. تسجيلات من قبل Ekzemplaro من Librivox. المحاذاة والشرح من قبل كاتسويا إيدا.
مجموعة البيانات هذه في المجال العام في الولايات المتحدة الأمريكية (وعلى الأرجح البلدان الأخرى أيضًا). لا توجد قيود على استخدامها. لمزيد من المعلومات ، يرجى الاطلاع على: librivox.org/pages/public-domain.