Di bidang kecerdasan buatan, perkembangan cepat model bahasa pemahaman wicara (SULMS) telah menarik perhatian luas. Laboratorium ASLP Universitas Politeknik Northwestern baru -baru ini merilis model pemahaman pidato terbuka OSUM, yang bertujuan untuk mengeksplorasi bagaimana secara efektif melatih dan memanfaatkan model pemahaman pidato untuk mempromosikan penelitian dan inovasi dalam komunitas akademik ketika sumber daya akademik terbatas.
Model OSUM menggabungkan encoder Whisper dengan model bahasa QWEN2 dan mendukung 8 tugas bicara, termasuk pengenalan bicara (ASR), pengenalan ucapan waktu (SRWT), deteksi peristiwa wicara (VED), pengenalan emosi (SGC), pengakuan gaya pidato (SSR), Klasifikasi Gender Gender (SGC), SGC). Dengan mengadopsi strategi pelatihan ASR+X, model ini dapat secara efisien dan stabil mengoptimalkan pengenalan suara saat melakukan tugas target, meningkatkan kemampuan pembelajaran multi-tugas.
Rilis model OSUM tidak hanya berfokus pada kinerja, tetapi juga menekankan transparansi. Metode pelatihan dan proses persiapan data telah dibuka untuk memberikan referensi dan panduan yang berharga kepada komunitas akademik. Menurut laporan teknis v2.0, jumlah data pelatihan untuk model OSUM telah meningkat menjadi 50,5k jam, secara signifikan lebih tinggi dari 44,1k jam sebelumnya. Di antara mereka, ini mencakup 3000 jam data klasifikasi gender bicara dan 6800 jam data prediksi usia pembicara. Perluasan data ini membuat model berkinerja lebih baik dalam berbagai tugas.
Menurut hasil evaluasi, OSUM lebih baik daripada model QWEN2-Audio dalam banyak tugas, bahkan dengan sumber daya komputasi dan data pelatihan yang jauh lebih sedikit. Hasil evaluasi yang relevan mencakup tidak hanya set tes publik, tetapi juga set tes internal, menunjukkan kinerja yang baik dari model OSUM pada tugas pemahaman wicara.

Laboratorium ASLP Universitas Politeknik Northwestern mengatakan bahwa tujuan OSUM adalah untuk mempromosikan pengembangan teknologi pemahaman pemahaman lanjutan melalui platform penelitian terbuka. Para peneliti dan pengembang dapat dengan bebas menggunakan kode dan bobot model, dan bahkan dapat digunakan untuk tujuan komersial, sehingga mempercepat aplikasi dan promosi teknologi.
Pintu Masuk Proyek: https://github.com/aslp-lab/osum?tab=readme-ov-file
Model OSUM menggabungkan Encoder Whisper dan model bahasa QWEN2 untuk mendukung banyak tugas suara dan membantu pembelajaran multi-tugas.
OSUM dalam Laporan Teknis v2.0, volume data pelatihan meningkat menjadi 50,5k jam, meningkatkan kinerja model.
Kode dan bobot dari model ini terbuka untuk digunakan di bawah lisensi Apache 2.0, mendorong penggunaan luas di akademisi dan industri.