Resmi Xiaomi Technology Weibo baru -baru ini merilis pengumuman penting yang mengumumkan bahwa tim model besarnya telah membuat kemajuan terobosan di bidang inferensi audio. Prestasi ini berasal dari aplikasi pertama dari algoritma pembelajaran penguatan tim untuk tugas pemahaman audio multimodal setelah terinspirasi oleh Deepseek-R1. Sungguh luar biasa bahwa tim berhasil menduduki puncak daftar ulasan pemahaman audio MMAU otoritatif internasional dengan tingkat akurasi 64,5% dari SOTA (canggih). Pada saat yang sama, tim Xiaomi juga memutuskan untuk open source yang relevan teknologi untuk mempromosikan penelitian lebih lanjut di sektor akademik dan industri.

Set evaluasi MMAU (pemahaman audio multi-tugas besar-besaran) adalah kriteria penting untuk mengukur kemampuan penalaran audio. Ini berisi 10.000 suara, suara ambien dan sampel musik, yang bertujuan untuk secara komprehensif memeriksa kinerja model pada berbagai keterampilan. Menurut hasil evaluasi, para ahli manusia memiliki tingkat akurasi 82,23%pada set ulasan ini, sedangkan model kinerja terbaik adalah Openai GPT-4O dengan tingkat akurasi 57,3%, diikuti oleh Google Deepmind's Gemini2.0Flash dengan tingkat akurasi 55,6%.
Selama proses penelitian tim Xiaomi, mereka pertama kali menggunakan dataset AVQA yang dirilis oleh Universitas Tsinghua untuk menyempurnakan dan mencapai tingkat akurasi 51,8%. Namun, terobosan nyata terjadi setelah tim menerapkan algoritma Optimasi Kebijakan Relatif (GRPO) Deepseek-R1 untuk model QWEN2-Audio-7b. Menggunakan hanya 38.000 sampel pelatihan dari AVQA, tim mencapai akurasi 64,5%, berhasil melampaui model bisnis yang ada.
Tim peneliti juga menemukan bahwa ketika model menghasilkan proses inferensi selama pelatihan, tingkat akurasi sebenarnya turun menjadi 61,1%. Hasil ini menunjukkan bahwa output rantai berpikir eksplisit mungkin tidak kondusif untuk model pelatihan, dan mekanisme umpan balik real-time dari pembelajaran penguatan lebih bermanfaat bagi model untuk mengunci area distribusi jawaban berkualitas tinggi. Meskipun tim telah mencapai akurasi yang signifikan, masih ada kesenjangan tertentu dibandingkan dengan tingkat pakar manusia.
Hasil eksperimen tim model besar Xiaomi tidak hanya menunjukkan keunggulan unik pembelajaran penguatan di bidang inferensi audio, tetapi juga memberikan ide -ide baru untuk penelitian di masa depan. Untuk mempromosikan kerja sama lebih lanjut antara akademik dan industri, tim memutuskan untuk membuka sumber kode pelatihan, parameter model, dan laporan teknis. Langkah ini tidak diragukan lagi akan mempercepat pengembangan teknologi inferensi audio dan menyediakan sumber daya yang berharga bagi para peneliti di bidang terkait.
Kode Pelatihan: https://github.com/xiaomi-research/r1-aqa
Parameter model: https://huggingface.co/mispeech/r1-aqa
Laporan Teknis: https://arxiv.org/abs/2503.11197
Demo Interaksi: https://120.48.108.147:7860/
Poin -Poin Kunci:
Tim model besar Xiaomi membuat terobosan di bidang inferensi audio melalui algoritma pembelajaran penguatan, dengan tingkat akurasi 64,5%.
Set evaluasi MMAU adalah kriteria penting untuk kemampuan penalaran audio, dengan tingkat akurasi ahli manusia saat ini sebesar 82,23%.
Hasil penelitian menunjukkan bahwa mekanisme umpan balik real-time dari pembelajaran penguatan lebih efektif untuk pelatihan model, dan penelitian di masa depan masih perlu dieksplorasi secara mendalam.