دفاتر Jupyter لضبط نماذج الهمس على الفيتناميين باستخدام Kaggle (يجب أن تعمل أيضًا على كولاب ولكن ليس من خلال الاختبار)
باستخدام مجموعتي من مجموعات بيانات الكلام الفيتنامية: https://huggingface.co/collections/doof-ferb/vietnamese-spheade-dataset-65c6af8c15c950537862fa6
استيراد NB1 أي مدرب أو فئة خطوط أنابيب من transformers Crash Kaggle TPU جلسة (انظر Huggingface/Transformers#28609) لذلك أفضل استخدام GPU
NB2 يمكن لفئة المدرب من بشكل افتراضي ، استخدم التوازي النموذج الساذج الذي لا يمكنه استخدام جميع وحدة معالجة الرسومات في نفس الوقت ، لذلك استخدم بشكل أفضل توازى البيانات الموزعةtransformers استخدام Multi-GPU مثل Kaggle Free T4 × 2 دون تغيير التعليمات البرمجية
NB3 استخدم البحث الجشع الافتراضي ، لأن بحث الشعاع يؤدي إلى ارتفاع في استخدام VRAM والذي قد يتسبب في خارج الذاكرة (Whisper Original استخدم Beams = 5 ، شيء مثل do_sample=True, num_beams=5 )
NB4 إذا استخدم تدريب Kaggle + السيرة الذاتية ، تذكر تمكين استمرار الملفات قبل الإطلاق
تقييم الدقة (WER) مع الاستدلال المدمن:
يهمس الدعامة الصغيرة مع النهج التقليدي:
يهمس الرعاة الكبير مع peft-lora + int8:
(اختبار-لا يعمل دائمًا) WAV2VEC V2 Bert: W2V-Bert-V2.ipynb
صورة Docker لتشغيلها على AWS EC2: Dockerfile ، تأتي مع نصوص مستقلة
تحويل إلى openai-whisper ، whisper.cpp ، faster-whisper ، Onnx ، Tensorrt: ليس بعد بعد
متنوعة: تحويل إلى تنسيق مجموعات بيانات الصوت المعانقة