Kürzlich hat das Xiaomi Big Model -Team den Durchbruch auf dem Gebiet der Audio -Inferenz erzielt und die Verstärkungslernalgorithmen erfolgreich auf multimodale Audioverständnisaufgaben angewendet, mit einer Genauigkeitsrate von 64,5%. Diese Leistung hat es ihm ermöglicht, den ersten Platz in der international maßgeblichen MMAU -Audioverständnisbewertung zu gewinnen. Hinter dieser Leistung ist die Inspiration des Teams für Deepseek-R1 untrennbar miteinander verbunden.
Der MMAU-Bewertungssatz (Massive Multi-Task-Audioverständnis und Argumentation) ist ein wichtiges Kriterium für die Messung von Audio-Inferenzfunktionen. Durch die Analyse einer Vielzahl von Audio -Samples, darunter Sprache, Umgebungsklang und Musik, wird die Leistung des Modells in komplexen Inferenzaufgaben getestet. Die Genauigkeitsrate menschlicher Experten beträgt 82,23%, während das am besten leistungsstarke Modell auf der aktuellen Liste GPT-4O von OpenAI mit einer Genauigkeitsrate von 57,3%ist. Vor diesem Hintergrund ist die Leistung des Xiaomi-Teams besonders auffällig.

Im Experiment des Teams haben sie die GRPO-Methode (Deepseek-R1 Relative Policy Optimization) übernommen, mit der das Modell unabhängig voneinander weiterentwickelt und die Reflexions- und Argumentationsfähigkeiten dem Menschen durch den Mechanismus "Versuch und Irrtum belohnt" ähnelt. Es ist erwähnenswert, dass mit der Unterstützung des Verstärkungslernens, obwohl nur 38.000 Trainingsproben verwendet wurden, das Modell des Xiaomi -Teams immer noch 64,5% Genauigkeit für den MMAU -Bewertungssatz erreichen kann, fast 10 Prozentpunkte höher als der aktuelle erste Platz.
Darüber hinaus ergaben Experimente auch, dass die traditionelle explizite Denkketten -Ausgangsmethode tatsächlich zu einer Abnahme der Modellgenauigkeit führen wird, was die Vorteile des impliziten Argumentierens im Training zeigt. Trotz der bemerkenswerten Erfolge erkennt das Xiaomi -Team immer noch, dass es immer noch etwas weit von menschlicher Experten entfernt ist. Das Team sagte, es werde weiterhin Strategien zur Verstärkung der Verstärkung optimieren, um bessere Argumentationsfunktionen zu erreichen.
Der Erfolg dieser Forschung zeigt nicht nur das Potenzial des Verstärkungslernens im Bereich des Audioverständnisses, sondern ebnet auch den Weg für die zukünftige Ära des intelligenten Hörens. Da Maschinen nicht nur Geräusche "hören" können, sondern auch die kausale Logik dahinter "verstehen", wird die intelligente Audio -Technologie neue Entwicklungsmöglichkeiten einleiten. Das Xiaomi -Team wird auch Open -Source -Trainingscode und Modellparameter für die weitere Forschung und den Austausch in den akademischen und industriellen Kreisen erleichtern.
Trainingscode: https://github.com/xiaomi-research/r1-aqa
Modellparameter: https://huggingface.co/mispeech/r1-aqa
Technischer Bericht: https://arxiv.org/abs/2503.11197
Interaktionsdemo: https://120.48.108.147:7860/