تنزيل Kokoro Speech Dataset - Kokoro Speech Dataset Source Code Download

Kokoro Speech Dataset

كود الذكاء الاصطناعي

Keep word separators in transcripts with '_'

تنزيل

Kokoro الكلام مجموعة بيانات

Kokoro Cleep Dataset هي مجموعة بيانات الكلام اليابانية للمجال العام. أنه يحتوي على 43253 مقاطع صوتية قصيرة لمتحدث واحد يقرأ 14 كتابًا جديدًا. يشبه تنسيق البيانات الوصفية شكل خطاب LJ بحيث تكون مجموعة البيانات متوافقة مع أنظمة توليف الكلام الحديثة.

النصوص من Aozora Bunko ، والتي هي في المجال العام. مقاطع الصوت هي من مشروع Librivox ، وهو أيضًا في المجال العام. يتم تقدير القراءات بواسطة MECAB و Unidic Lite من نص خليط Kanji-Kana. القراءات رومانية تشبه التنسيق الذي تستخدمه يوليوس.

تم تقسيم مقاطع الصوت وتم محاذاة النصوص تلقائيًا بواسطة kokoro-align.

عينة البيانات

استمع من متصفحك أو قم بتنزيل مقاطع 100 مقاطع تم أخذ عينات منها بشكل عشوائي.

تنسيق الملف

يتم توفير البيانات الوصفية في metadata.csv . يتكون هذا الملف من سجل واحد لكل سطر ، محدد بواسطة حرف الأنابيب (0x7C). الحقول هي:

المعرف: هذا هو اسم ملف .wav المقابل
النسخ: نص خليط Kanji-Kana الذي يتحدث به القارئ (UTF-8)
القراءة: نص روماني يتحدث به القارئ (UTF-8)

كل ملف صوتي هو WAV من أحادي القناة 16 بت مع معدل عينة قدره 22050 هرتز.

إحصائيات

يتم توفير مجموعة البيانات بأحجام مختلفة ، xlarge ، large ، small ، tiny . لا يشارك large ، small tiny نفس المقاطع. يحتوي xlarge على جميع المقاطع المتاحة ، بما في ذلك large small tiny .

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

كيفية الحصول على البيانات

نظرًا لحجم بياناتها الكبير لمجموعة البيانات ، لا يتم تضمين ملفات الصوت في هذا المستودع ، ولكن يتم تضمين البيانات الوصفية.

لجعل ملفات .wav من مجموعة البيانات ، قم بتشغيل

 $ bash download.sh

لتنزيل البيانات الوصفية من صفحة المشروع. ثم ركض

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

يطبع هذا مثال SHELL SCRIPT لتنزيل ملفات الصوت MP3 من Archive.org واستخراجها إذا لم تكن قد فعلت ذلك بالفعل.

بعد القيام بذلك ، قم بتشغيل الأمر مرة أخرى

 $ python3 extract.py --size tiny

للحصول على ملفات tiny تحت ./output Directory.

يمكنك إعطاء اسم آخر لحجم لخيار --size للحصول على مجموعة بيانات من الحجم.

يمكنك تحديد تنسيق مقطع الصوت إلى خيار --format .

نموذج تاكوترون ما قبل

عينات الصوت
نموذج ما قبل

تتوفر نموذج Tacotron المسبق المدربين مع مجموعة بيانات الكلام Kokoro وعينات الصوت. تم تدريب النموذج على 21K خطوة مع small . وفقًا لإعادة الريبو أعلاه ، "بدأ الكلام يصبح واضحًا حوالي 20 ألف خطوة" مع مجموعة بيانات الكلام LJ. تقرأ عينات الصوت الجمل القليلة الأولى من Gon Gitsune والتي لم يتم تضمينها في small .

كتب

تحتوي مجموعة البيانات على تسجيلات من هذه الكتب التي قرأها Ekzemplaro

明暗 (ميان) 16:39:29 نص على الإنترنت
こころ (Kokoro) 08:46:41 نص عبر الإنترنت
田舎教師 (إيناكا كيوشي) 08:13:26 نص على الإنترنت
野分 (Nowaki) 4:40:49 نص عبر الإنترنت
草枕 (Kusamakura) 04:27:35 نص على الإنترنت
坊っちゃん (Botchan) 04:26:27 نص عبر الإنترنت
雁 (GAN) 03:41:31 نص عبر الإنترنت
生まれいずる悩み (Umareizuru nayami) 2:43:12 نص عبر الإنترنت
硝子戸の中 (Garasudono Uchi) 2:39:53 نص على الإنترنت
永日小品 (Eijitsu Syohin) 2:33:54 نص على الإنترنت
蒲団 (فوتون) 2:28:58 نص عبر الإنترنت
高野聖 (Kouyahijiri) 2:06:23 نص على الإنترنت
ごん狐 (Gon Gitsune) 0:15:42 نص عبر الإنترنت
コーカサスの禿鷹 (Caucasus no Hagetaka) 0:13:04 نص على الإنترنت

مشروع مماثل

استلهم هذا المشروع أيضًا من CSS10 ، والذي يحتوي على مقاطع صوتية من لغات مختلفة من Librivox.

Changelog

v1.3 حافظ على فواصل الكلمات في النصوص مع '_'
v1.2 بيانات تعريف جديدة تم إنشاؤها مع نموذج محاذاة جديد
v1.1.1 تمت إضافة FLAC ، MP3 ، OGG دعم
V1.1 أضاف المزيد من الكتب
الإصدار الأولي V1.0

الاعتمادات

جميع النصوص من Aozora Bunko. تسجيلات من قبل Ekzemplaro من Librivox. المحاذاة والشرح من قبل كاتسويا إيدا.

رخصة

مجموعة البيانات هذه في المجال العام في الولايات المتحدة الأمريكية (وعلى الأرجح البلدان الأخرى أيضًا). لا توجد قيود على استخدامها. لمزيد من المعلومات ، يرجى الاطلاع على: librivox.org/pages/public-domain.

يوسع

معلومات إضافية

الإصدار Keep word separators in transcripts with '_'
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-23
الحجم 6.61KB
من Github

تطبيقات ذات صلة

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل