ในด้านปัญญาประดิษฐ์การพัฒนาอย่างรวดเร็วของแบบจำลองภาษาความเข้าใจในการพูด (Sulms) ได้ดึงดูดความสนใจอย่างกว้างขวาง ห้องปฏิบัติการ ASLP ของมหาวิทยาลัยโพลีเทคนิคทางตะวันตกเฉียงเหนือเพิ่งเปิดตัวโมเดลความเข้าใจในการพูดแบบเปิด OSUM โดยมีวัตถุประสงค์เพื่อสำรวจวิธีการฝึกอบรมและใช้รูปแบบความเข้าใจในการพูดอย่างมีประสิทธิภาพเพื่อส่งเสริมการวิจัยและนวัตกรรมในชุมชนวิชาการเมื่อทรัพยากรทางวิชาการมี จำกัด
โมเดล OSUM รวมตัวเข้ารหัสเสียงกระซิบเข้ากับโมเดลภาษา QWEN2 และสนับสนุน 8 งานพูดรวมถึงการรู้จำเสียงพูด (ASR), การจดจำคำพูดที่มีการประทับเวลา (SRWT), การตรวจจับเหตุการณ์การพูด (VED), การจดจำอารมณ์ความรู้สึก (SER), การจดจำสไตล์การพูด (SSR) ด้วยการใช้กลยุทธ์การฝึกอบรม ASR+X โมเดลนี้สามารถเพิ่มประสิทธิภาพการจดจำคำพูดได้อย่างมีประสิทธิภาพและมีเสถียรภาพในขณะที่ทำงานเป้าหมายปรับปรุงความสามารถในการเรียนรู้แบบหลายงาน
การเปิดตัวของโมเดล OSUM ไม่เพียง แต่มุ่งเน้นไปที่ประสิทธิภาพ แต่ยังเน้นความโปร่งใส วิธีการฝึกอบรมและกระบวนการเตรียมข้อมูลได้เปิดขึ้นเพื่อให้การอ้างอิงและคำแนะนำที่มีค่าแก่ชุมชนวิชาการ ตามรายงานทางเทคนิค v2.0 จำนวนข้อมูลการฝึกอบรมสำหรับโมเดล OSUM เพิ่มขึ้นเป็น 50.5k ชั่วโมงซึ่งสูงกว่า 44.1k ชั่วโมงก่อนหน้านี้อย่างมีนัยสำคัญ ในหมู่พวกเขามีข้อมูลการจำแนกเพศเพศหญิง 3000 ชั่วโมงและข้อมูลการทำนายอายุ 6800 ชั่วโมง การขยายตัวของข้อมูลเหล่านี้ทำให้โมเดลทำงานได้ดีขึ้นในงานต่าง ๆ
จากผลการประเมินผล OSUM ดีกว่ารุ่น QWEN2-AUDIO ในงานหลายงานแม้จะมีทรัพยากรการคำนวณและข้อมูลการฝึกอบรมน้อยลงอย่างมีนัยสำคัญ ผลการประเมินที่เกี่ยวข้องไม่เพียง แต่ครอบคลุมชุดทดสอบสาธารณะเท่านั้น แต่ยังรวมถึงชุดทดสอบภายในซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ดีของโมเดล OSUM ในงานความเข้าใจในการพูด

ห้องปฏิบัติการ ASLP ของ Northwestern Polytechnical University กล่าวว่าเป้าหมายของ OSUM คือการส่งเสริมการพัฒนาเทคโนโลยีการทำความเข้าใจการพูดขั้นสูงผ่านแพลตฟอร์มการวิจัยแบบเปิด นักวิจัยและนักพัฒนาสามารถใช้รหัสและน้ำหนักของแบบจำลองได้อย่างอิสระและสามารถใช้เพื่อวัตถุประสงค์ทางการค้าได้อย่างอิสระดังนั้นจึงเร่งการใช้งานและการส่งเสริมเทคโนโลยี
ทางเข้าโครงการ: https://github.com/aslp-lab/osum?tab=readme-ov-file
โมเดล OSUM รวมตัวเข้ารหัสเสียงกระซิบและโมเดลภาษา QWEN2 เพื่อรองรับงานเสียงที่หลากหลายและช่วยการเรียนรู้แบบหลายงาน
OSUM ในรายงานทางเทคนิค v2.0 ปริมาณข้อมูลการฝึกอบรมเพิ่มขึ้นเป็น 50.5k ชั่วโมงปรับปรุงประสิทธิภาพของโมเดล
รหัสและน้ำหนักของรุ่นนี้เปิดให้ใช้ภายใต้ใบอนุญาต Apache 2.0 กระตุ้นให้มีการใช้อย่างกว้างขวางในสถาบันการศึกษาและอุตสาหกรรม