في مجال الذكاء الاصطناعي ، اجتذب التطور السريع لنماذج لغة فهم الكلام (SULMS) اهتمامًا واسع النطاق. أصدر مختبر جامعة Northwestern Polytechnical ASLP مؤخرًا نموذج فهم الكلام المفتوح Osum ، بهدف استكشاف كيفية تدريب واستخدام نموذج فهم الكلام بشكل فعال لتعزيز البحث والابتكار في المجتمع الأكاديمي عندما تكون الموارد الأكاديمية محدودة.
يجمع نموذج OSUM بين تشفير الهمس ونموذج لغة QWEN2 ويدعم 8 مهام الكلام ، بما في ذلك التعرف على الكلام (ASR) ، والتعرف على الكلام الطابع (SRWT) ، واكتشاف الأحداث الكلام (VED) ، والتعرف على العاطفة (SER) ، والتعرف على نمط الكلام (SSR) ، ودراسة جنس المتحدث (SGC). من خلال تبني استراتيجية التدريب ASR+X ، يمكن لهذا النموذج تحسين التعرف على الكلام بكفاءة وبشكل ثابت مع أداء المهام المستهدفة ، وتحسين قدرة التعلم متعدد المهام.
لا يركز إصدار نموذج OSUM على الأداء فحسب ، بل يركز أيضًا على الشفافية. تم فتح أساليب التدريب وعملية إعداد البيانات لتوفير مرجع وتوجيه قيمة للمجتمع الأكاديمي. وفقًا للتقرير الفني v2.0 ، تمت زيادة مقدار بيانات التدريب لنموذج Osum إلى 50.5 ألف ساعة ، وهو أعلى بكثير من 44.1k ساعة سابقة. من بينها ، ويشمل 3000 ساعة من بيانات تصنيف جنس الكلام و 6800 ساعة من بيانات التنبؤ بعمر السماعة. إن توسيع هذه البيانات يجعل النموذج أداء أفضل في مهام مختلفة.
وفقًا لنتائج التقييم ، يكون Osum أفضل من نموذج QWEN2-Audio في مهام متعددة ، حتى مع وجود موارد حوسبة أقل بكثير وبيانات التدريب. لا تغطي نتائج التقييم ذات الصلة مجموعة الاختبار العامة فحسب ، بل تغطي أيضًا مجموعة الاختبار الداخلية ، مما يدل على الأداء الجيد لنموذج Osum على مهام فهم الكلام.

قال مختبر ASLP في جامعة شمال غرب البولي تيفنيك أن هدف أوسوم هو تعزيز تطوير تقنيات فهم الكلام المتقدمة من خلال منصة بحث مفتوحة. يمكن للباحثين والمطورين استخدام رمز وأوزان النموذج بحرية ، ويمكن استخدامه لأغراض تجارية ، وبالتالي تسريع تطبيق التكنولوجيا والترويج لها.
مدخل المشروع: https://github.com/aslp-lab/osum؟tab=readme-ov-file
يجمع طراز Osum بين تشفير Whisper ونموذج لغة QWEN2 لدعم المهام الصوتية المتعددة والمساعدة في التعلم متعدد المهام.
OSUM في التقرير الفني v2.0 ، ارتفع حجم بيانات التدريب إلى 50.5 ألف ساعة ، مما يحسن أداء النموذج.
رمز وأوزان هذا النموذج مفتوح لاستخدامه بموجب ترخيص Apache 2.0 ، مما يشجع الاستخدام الواسع النطاق في الأوساط الأكاديمية والصناعة.