تنزيل voice dataset creation - voice dataset creation رمز المصدر

voice dataset creation

كود الذكاء الاصطناعي

1.0.0

تنزيل

إنشاء مجموعة البيانات الصوتية

يوضح هذا الريبو الخطوات والبرامج النصية اللازمة لإنشاء مجموعة بيانات النص إلى الكلام الخاص بك لتدريب نموذج صوتي. الإخراج النهائي هو في تنسيق LJSPEEDE.

مخطط التدفق

جدول المحتويات

قم بإنشاء تسجيلات الصوت الخاصة بك
إنشاء مجموعة بيانات صوتية اصطناعية
إنشاء نسخ للتسجيلات الصوتية الحالية
المرافق الأخرى

قم بإنشاء تسجيلات الصوت الخاصة بك

متطلبات

برنامج تسجيل الصوت
ميكروفون محمولة على رأس الاتجاه
بطاقة صوتية جيدة النوعية

قم بإنشاء مجموعة نصية للجمل

قم بإنشاء جمل ستتراوح من 3 إلى 10 ثوانٍ عند التحدث بها
استخدام تنسيق LJSPEEDE
- "|" القيم المنفصلة ، معرف ملف WAV ثم نص الجملة
- 100|this is an example sentence

التحدث وتسجيل الجمل

تحدث كل جملة كما هو مكتوب
يجب أن يكون معدل العينة 22050 أو أكبر

أطوال الجملة

قم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.

إنشاء مجموعة بيانات صوتية اصطناعية

متطلبات

مثيل محرك Google Cloud Platform
- Cloud API access scopes حدد Allow full access to all Cloud APIs
كوندا

تثبيت

إنشاء بيئة كوندا على مثيل GCP

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

قم بإنشاء مجموعة نصية للجمل

قم بإنشاء جمل ستتراوح من 3 إلى 10 ثوانٍ عند التحدث بها
استخدام تنسيق LJSPEEDE
- "|" القيم المنفصلة ، معرف ملف WAV ثم نص الجملة
- 100|this is an example sentence

إنشاء مجموعة بيانات صوتية اصطناعية

python text_to_wav.py tts_generate

أطوال الجملة

قم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.

إنشاء نسخ للتسجيلات الصوتية الحالية

متطلبات

Adobe الاختبار أو الجرأة
مثيل محرك Google Cloud Platform
- Cloud API access scopes حدد Allow full access to all Cloud APIs
كوندا

تثبيت

إنشاء بيئة كوندا على مثيل GCP

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

املأ ورقة بيانات لمجموعة البيانات الصوتية

مراجعة أوراق البيانات لمجموعات البيانات بواسطة Gebru et al.: https://arxiv.org/pdf/1803.09010.pdf
ورقة بيانات Markdown: https://github.com/jrmeyer/markdown-datashet-for-datasets/blob/master/datasheet.md

بمناسبة الكلام

في Adobe Audition ، فتح ملف الصوت:

حدد Diagnostics -> Mark Audio
حدد Mark the Speech
انقر فوق Scan
انقر فوق Find Levels
انقر فوق Scan مرة أخرى
انقر فوق Mark All
اضبط إشارة الصوت والصمت DB والطول حتى تتراوح المقاطع بين 3-10 ثانية

أو في الجرأة ، فتح ملف الصوت:

حدد Analyze -> Sound Finder
اضبط إشارة الصوت والصمت DB والطول حتى تتراوح المقاطع بين 3-10 ثانية

اضبط العلامات أو حدود التسمية

في الاختبار :

Markers علامات مفتوحة
اضبط العلامات ، وإزالة الصمت والضوضاء لجعل طول المقطع بين 3 إلى 10 ثوانٍ

في الاختبار :

اضبط حدود الملصقات ، وإزالة الصمت والضوضاء لجعل طول المقطع بين 3 إلى 10 ثوانٍ

علامات التصدير/الملصقات والموجات

في الاختبار :

حدد جميع العلامات في القائمة
حدد Export Selected Markers to CSV وحفظه كعلامات. csv
حدد Preferences -> Media & Disk Cache و Untick Save Peak Files
حدد Export Audio of Selected Range Markers مع الخيارات التالية:
- تحقق من Use marker names in filenames
- تنسيق تحديث إلى WAV PCM
- تحديث عينة النوع 22050 Hz Mono, 16-bit
- استخدم المجلد wavs_export

أو في الجرأة :

حدد Export multiple...
- التنسيق: واف
- الخيارات: موقعة 16 بت PCM
- تقسيم الملفات بناءً على الملصقات
- اسم الملفات باستخدام تسمية/تتبع اسم
- استخدم المجلد wavs_export
حدد Export labels Label Track.txt

تحليل WAVs مع إشارة إلى نسبة الضوضاء كولاب

تشغيل colabs/voice_dataset_snr.ipynb
تنظيف أو إزالة الملفات الصاخبة

إنشاء نسخ أولية مع STT

للاختبار ، باستخدام Markers.csv التصدير. CSV و WAVS المجلد:

 cd scripts
python wav_to_text.py audition

يقوم البرنامج النصي بإنشاء ملف جديد ، Markers_STT.csv .

من أجل الجرأة ، باستخدام مجلد Label Track.txt المصدر.

 cd scripts
python wav_to_text.py audacity

يقوم البرنامج النصي بإنشاء ملف جديد ، Label Track STT.csv .

النسخ الدقيقة

للاختبار :

حذف جميع العلامات
حدد Import Markers from File وحدد ملفًا باستخدام STT Transcriptions: Markers_Stt.csv
قم بضبط حقل الوصف في العلامات لتطابق الكلمات المنطوقة تمامًا

للجرأة :

افتح Label Track STT.txt في محرر نصوص.
ضبط حقل التسميات في الملف النصي لتطابق الكلمات المنطوقة تمامًا

علامات التصدير (الاختبار فقط) والموجات

للاختبار :

حدد جميع العلامات في القائمة
حدد Export Selected Markers to CSV وحفظه كعلامات. csv
حدد Export Audio of Selected Range Markers مع الخيارات التالية:
- تحقق من Use marker names in filenames
- تنسيق تحديث إلى WAV PCM
- تحديث عينة النوع 22050 Hz Mono, 16-bit
- استخدم المجلد wavs_export

للجرأة :

حدد Export multiple...
- التنسيق: واف
- الخيارات: موقعة 16 بت PCM
- تقسيم الملفات بناءً على الملصقات
- اسم الملفات باستخدام تسمية/تتبع اسم
- استخدم المجلد wavs_export

تحويل العلامات (الاختبار) أو الملصقات (الجرأة) إلى تنسيق LJSPEEDE

باستخدام Markers.csv المصدرة Label Track STT.txt

للاختبار :

python markersfile_to_metadata.py audition

للجرأة :

python markersfile_to_metadata.py audacity

أطوال الجملة

قم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.

المرافق الأخرى

upsample wav file

FFMPEG: FFMPEG Resampy: ريسامبي اختبرنا ثلاث طرق لرفع ملفات WAV من 16000 إلى 22،050 هرتز. بعد مراجعة الطيف ، اخترنا FFMPEG لتخطيه لأنه يتضمن 2 كيلو هرتز أخرى من المعلومات الراقية بالمقارنة مع Resampy. البرامج النصية/resplywav.sh

 scripts/resamplewav.sh

مراجع

Mozilla TTS: https://github.com/mozilla/tts
أتمتة المحاذاة ، يتضمن صوت قطاع على الصمت ، واجهة برمجة تطبيقات الكلام على Google ، ومحاذاة التعرف: https://github.com/carpedm20/multi-speaker-tacotron-tensorflow#2-2-2-2--korean-datasets
pretring على الأجسام الاصطناعية الكبيرة والضبط الدقيق على تلك المحددة https://twitter.com/garygarywang
أوراق البيانات لمجموعات البيانات https://arxiv.org/abs/1803.09010

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-23
الحجم 6.27MB
من Github

تطبيقات ذات صلة

glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
الجرم السماوي للخلق

2022-07-26
GOOGLE VOICE واجهة SMS غير محدودة

2009-11-07

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل