Kabooks هو اختصار متكرر لـ "Kabooks Audiobooks Dataset Creator" وهو أداة لأتمتة عملية إنشاء مجموعات البيانات لتدريب نماذج النص على الكلام (TTS) ونماذج الكلام إلى النص (STT). وهو يعتمد على عمل Pansori [https://arxiv.org/abs/1812.09798].
عند استلام ملف صوتي والنص المقابل كمدخلات ، ستقوم kabooks بتنظيف النص ، وتقسيمه إلى جمل ، ونسخ كل جزء وابحث عن نص الحقيقة الأرضية في الكتاب النصي الكامل.
استخدم على مسؤوليتك الخاصة.
تأكد من تثبيت FFMPEG:
$ apt-get update
$ apt install ffmpeg$ conda create -n kabooks python=3.9 pip
$ conda activate kabooksتثبيت Pytorch:
pip3 install torch torchvision torchaudioتثبيت متطلبات kabooks:
$ pip install -r requirements.txtتتلقى هذه الخطوة ملف JSON من الخطوة السابقة وتنفذ تجزئة ملف الصوت. يعتمد هذا البرنامج النصي على البرنامج النصي الذي قدمه Keith Ito ، الذي قدمته عبر البريد الإلكتروني. في هذه الخطوة ، يتم إنشاء قائمة منطقية من الأجزاء أولاً ، وتخزين اسم الملف ، وأوقات البداية والنهاية. ثم ، انتقل إلى هذه القائمة المنطقية ، وقسّم الصوت الأصلي ، وحفظ كل قطعة إلى القرص.
يتم توفير هذه الوظيفة بواسطة البرنامج النصي المسمى "Audio_segmentation.py" ويمكن استخدامه بشكل منفصل. قم بتشغيل البرنامج النصي باستخدام وسيطة إدخال مسار ملف الصوت (mp3) ليتم تقسيمها.
$ python segment_tools.py يجب أن يكون الإدخال ملف MP3 ، والذي يجب أن يكون داخل مجلد الإدخال. بعد تنفيذ البرنامج النصي ، سيتم إنشاء شرائح الصوت في مجلد WAVS ، وسيكون للقطاعات نفس الأسماء مثل الملف الأصلي.
هنا يوجد نص لاستخدام WAV2VEC2. يتم توفير هذه الوظيفة من خلال البرنامج النصي المسمى "tesper_audios.py" ويمكن استخدامه بشكل منفصل. قم بتشغيل البرنامج النصي باستخدام وسيطة إدخال في دليل الإدخال لملفات WAVS ، ملف إخراج النسخ. على سبيل المثال:
$ python transcription_tools.pyالإدخال الافتراضي للنص هو محتويات مجلد WAVS. ستكون النتيجة ملف .csv (transcription.csv) يحتوي على نسخة من كل ملف من ملفات الصوت الموجودة في مجلد WAVS.
في هذه الخطوة ، سيتم مقارنة كل نسخة من الخطوة السابقة بالنص الكامل الذي يشير إلى كتاب مدخلات الصوت. لكل نسخة ، سيعيد البرنامج النصي جملة بأكبر قدر من التشابه ، والذي تم العثور عليه في النص الكامل.
ستكون النتيجة هي .csv (result.csv) التي تحتوي على النص ، الجملة الأصلية وقيمة التشابه ، لكل من قطاعات الصوت الموجودة في مجلد WAVS.
$ python search_substring.pyيمكنك أيضًا استخدام نفس الإصدار من هذا البرنامج النصي ، ولكن باستخدام مؤشرات الترابط:
$ python search_substring_with_threads.py --number_threads=16