يوضح هذا الريبو الخطوات والبرامج النصية اللازمة لإنشاء مجموعة بيانات النص إلى الكلام الخاص بك لتدريب نموذج صوتي. الإخراج النهائي هو في تنسيق LJSPEEDE.

قم بإنشاء تسجيلات الصوت الخاصة بك100|this is an example sentenceقم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.
إنشاء مجموعة بيانات صوتية اصطناعيةCloud API access scopes حدد Allow full access to all Cloud APIsإنشاء بيئة كوندا على مثيل GCP
conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas100|this is an example sentencepython text_to_wav.py tts_generateقم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.
إنشاء نسخ للتسجيلات الصوتية الحاليةCloud API access scopes حدد Allow full access to all Cloud APIsإنشاء بيئة كوندا على مثيل GCP
conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandasفي Adobe Audition ، فتح ملف الصوت:
Diagnostics -> Mark AudioMark the SpeechScanFind LevelsScan مرة أخرىMark Allأو في الجرأة ، فتح ملف الصوت:
Analyze -> Sound Finderفي الاختبار :
Markers علامات مفتوحةفي الاختبار :
في الاختبار :
Export Selected Markers to CSV وحفظه كعلامات. csvPreferences -> Media & Disk Cache و Untick Save Peak FilesExport Audio of Selected Range Markers مع الخيارات التالية:Use marker names in filenamesWAV PCM22050 Hz Mono, 16-bitwavs_exportأو في الجرأة :
Export multiple...wavs_exportExport labels Label Track.txt للاختبار ، باستخدام Markers.csv التصدير. CSV و WAVS المجلد:
cd scripts
python wav_to_text.py audition يقوم البرنامج النصي بإنشاء ملف جديد ، Markers_STT.csv .
من أجل الجرأة ، باستخدام مجلد Label Track.txt المصدر.
cd scripts
python wav_to_text.py audacity يقوم البرنامج النصي بإنشاء ملف جديد ، Label Track STT.csv .
للاختبار :
Import Markers from File وحدد ملفًا باستخدام STT Transcriptions: Markers_Stt.csvللجرأة :
Label Track STT.txt في محرر نصوص.للاختبار :
Export Selected Markers to CSV وحفظه كعلامات. csvExport Audio of Selected Range Markers مع الخيارات التالية:Use marker names in filenamesWAV PCM22050 Hz Mono, 16-bitwavs_exportللجرأة :
Export multiple...wavs_export باستخدام Markers.csv المصدرة Label Track STT.txt
للاختبار :
python markersfile_to_metadata.py auditionللجرأة :
python markersfile_to_metadata.py audacityقم بتشغيل البرامج النصية/wavdurations2csv.sh لتخطيط طول الجملة والتحقق من أن لديك توزيعًا جيدًا لأطوال ملف WAV.
FFMPEG:
Resampy:
اختبرنا ثلاث طرق لرفع ملفات WAV من 16000 إلى 22،050 هرتز. بعد مراجعة الطيف ، اخترنا FFMPEG لتخطيه لأنه يتضمن 2 كيلو هرتز أخرى من المعلومات الراقية بالمقارنة مع Resampy. البرامج النصية/resplywav.sh
scripts/resamplewav.sh