Die offizielle Weibo von Xiaomi Technology hat kürzlich eine wichtige Ankündigung veröffentlicht, in der angekündigt wurde, dass sein großes Modellteam den Durchbruch auf dem Gebiet der Audio -Inferenz erzielt hat. Diese Leistung ergibt sich aus der ersten Anwendung von Verstärkungslernalgorithmen durch das Team auf multimodale Audioverständnisaufgaben, nachdem er sich von Deepseek-R1 inspiriert hat. Es ist bemerkenswert, dass das Team die international maßgebliche MMAU -Audio -Verständnis -Liste mit einer Genauigkeitsrate von 64,5% SOTA (Stand der Technik) erfolgreich anführte. Gleichzeitig beschloss das Xiaomi -Team außerdem, relevante Technologien für Open Source, um weitere Forschung in den akademischen und industriellen Sektoren zu fördern.

Der MMAU-Bewertungssatz (Massive Multi-Task-Audioverständnis und Argumentation) ist ein wichtiges Kriterium zur Messung der Fähigkeit zur Audio-Argumentation. Es enthält 10.000 Sprach-, Umgebungs -Sounds und Musikmuster, um die Leistung des Modells zu mehreren Fähigkeiten umfassend zu untersuchen. Laut den Bewertungsergebnissen haben menschliche Experten bei diesem Überprüfungssatz eine Genauigkeitsrate von 82,23%, während das Best-Performing-Modell GPT-4O von OpenAI mit einer Genauigkeitsrate von 57,3%ist, gefolgt von Google DeepMinds Gemini2.0flash mit einer Genauigkeitsrate von 55,6%.
Während des Forschungsprozesses des Xiaomi-Teams verwendeten sie zunächst den von der Tsinghua University veröffentlichten AVQA-Datensatz zur Feinabstimmung und erreichten eine Genauigkeitsrate von 51,8%. Der wirkliche Durchbruch ereignete sich jedoch, nachdem das Team den GRPO-Algorithmus (Deepseek-R1) auf das QWEN2-Audio-7B-Modell angewendet hatte. Mit nur 38.000 Trainingsmuster von AVQA erreichte das Team eine Genauigkeit von 64,5%und übertraf das bestehende Geschäftsmodell erfolgreich.
Das Forschungsteam stellte außerdem fest, dass die Genauigkeitsrate bei der Ausgabe des Modells während des Trainings tatsächlich auf 61,1%gesunken ist. Dieses Ergebnis zeigt, dass explizite Denkkettenausgabe möglicherweise nicht für das Modelltraining förderlich ist, und der Echtzeit-Feedback-Mechanismus des Verstärkungslernens ist hilfreicher, damit das Modell den Verteilungsbereich hochwertiger Antworten sperrt. Obwohl das Team eine erhebliche Genauigkeit erreicht hat, gibt es im Vergleich zum Ausmaß der menschlichen Experten immer noch eine gewisse Lücke.
Die experimentellen Ergebnisse von Xiaomis Big Model -Team zeigen nicht nur die einzigartigen Vorteile des Verstärkungslernens im Bereich Audio -Inferenz, sondern bieten auch neue Ideen für zukünftige Forschung. Um eine weitere Zusammenarbeit zwischen Akademik und Industrie zu fördern, beschloss das Team, den Trainingscode, die Modellparameter und die technischen Berichte Open Source zu eröffnen. Dieser Schritt wird zweifellos die Entwicklung der Audio -Inferenztechnologie beschleunigen und Forschern in verwandten Bereichen wertvolle Ressourcen bieten.
Trainingscode: https://github.com/xiaomi-research/r1-aqa
Modellparameter: https://huggingface.co/mispeech/r1-aqa
Technischer Bericht: https://arxiv.org/abs/2503.11197
Interaktionsdemo: https://120.48.108.147:7860/
Schlüsselpunkte:
Das große Modellteam von Xiaomi erzielte durch Durchbrüche im Bereich der Audio -Inferenz durch Verstärkungslernen -Algorithmen mit einer Genauigkeitsrate von 64,5%.
Der MMAU -Bewertungssatz ist ein wichtiges Kriterium für Audio -Argumentationsfunktionen, wobei die derzeitige Genauigkeitsrate menschlicher Experten von 82,23%.
Die Forschungsergebnisse zeigen, dass der Echtzeit-Feedback-Mechanismus des Verstärkungslernens für das Modelltraining effektiver ist und zukünftige Forschung noch ausführlich untersucht werden muss.