تساعدك البرامج النصية للمساعد Python هذه على الحصول على ملفات صوتية مشروحة أصغر ، من ملف صوت كبير ، لتدريب نماذج STT أو TTS ، بواسطة: 1. تقسيم الملف الكبير في عدة ملفات WAV أصغر ، مفصولة بواسطة Silence. إذا كان هناك العديد من مكبرات الصوت في الصوت الخاص بك ، فيمكنك أيضًا إزالة الأجزاء التي يتحدث بها مكبرات الصوت (S) الأخرى. 2. (اختياري) احصل على نسخ لهذه الملفات الصوتية الأصغر من خدمة Google Cloud STT ، وهذا يتطلب حساب GCP 3.
تتطلب الخطوة 1 تثبيت FFMPEG على نظامك.
جميع البرامج النصية مكتوبة في Python 3.6+ ، يمكن تثبيت الحزم المطلوبة مع:
pip install -r requirement.txt
ستحتاج Pyaudio للخطوة 3.
بالإضافة إلى ذلك ، إذا كنت ترغب في استخدام STT من GCP ، فيجب عليك تثبيت عميل Python الخاص بهم مع
pip install --upgrade google-cloud-speech
وتكوين مشروع كما هو موضح هنا.
يتوافق الإصدار الحالي من هذا البرنامج النصي مع Google-Cloud-Speech 2.x ، إذا كنت ترغب في استخدام الإصدار 1.x ، فيمكنك إلقاء نظرة على الإصدارات السابقة من هذا الريبو التي استخدمت هذا الإصدار أيضًا.
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
سيتم إنشاء ملف reckences.csv كـ "ملف ؛ الجملة".
للحفاظ على الملفات التي يتحدث بها مكبرات صوت معينة فقط ، استخدم وسيطات "---Remove_Bad_Segments" و "-speaker_segment".
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
لجميع البرامج النصية الثلاثة ، يمكنك رؤية حجج إضافية معها
python FILE_NAME.py -h