Auf dem Gebiet der künstlichen Intelligenz hat die schnelle Entwicklung von Sprachverständnismodellen (Schwulsen) weit verbreitete Aufmerksamkeit erregt. Das Northwestern Polytechnical University ASLP Laboratory hat kürzlich das Open Speech -Verständnismodell OSUM veröffentlicht, um zu untersuchen, wie das Sprachverständnismodell effektiv geschult und nutzen kann, um Forschung und Innovation in der akademischen Gemeinschaft zu fördern, wenn akademische Ressourcen begrenzt sind.
The OSUM model combines the Whisper encoder with the Qwen2 language model and supports 8 speech tasks, including speech recognition (ASR), timestamped speech recognition (SRWT), speech event detection (VED), speech emotion recognition (SER), speech style recognition (SSR), speaker gender classification (SGC), speaker age prediction (SAP), and voice-to-text chat (STTC). Durch die Übernahme der ASR+X-Trainingsstrategie kann dieses Modell die Spracherkennung effizient und stabil optimieren, während sie Zielaufgaben ausführen und die Fähigkeit des Multitasking-Lernens verbessern.
Die Veröffentlichung des OSUM -Modells konzentriert sich nicht nur auf die Leistung, sondern betont auch die Transparenz. Die Schulungsmethoden und der Datenvorbereitungsprozess wurden geöffnet, um der akademischen Gemeinschaft wertvolle Bezug und Anleitung zu geben. Laut dem technischen Bericht v2.0 wurde die Anzahl der Schulungsdaten für das OSUM -Modell auf 50,5.000 Stunden erhöht und signifikant höher als die vorherigen 44,1.000 Stunden. Unter ihnen umfasst es 3000 Stunden Sprachgeschlechtsklassifizierungsdaten und 6800 Stunden Lautsprecher -Altersvorhersagedaten. Durch die Erweiterung dieser Daten wird das Modell bei verschiedenen Aufgaben besser abschneiden.
Nach den Bewertungsergebnissen ist OSUM bei mehreren Aufgaben besser als das QWEN2-Audio-Modell, selbst mit deutlich weniger Rechenressourcen und Schulungsdaten. Die relevanten Bewertungsergebnisse deckten nicht nur den öffentlichen Testsatz, sondern auch den internen Testsatz ab und demonstrieren die gute Leistung des OSUM -Modells zu Sprachverständnisaufgaben.

Das ASLP -Labor der nordwestlichen polytechnischen Universität sagte, dass das Ziel von OSUM die Entwicklung fortschrittlicher Technologien für fortschrittliche Sprachverständnisse durch eine offene Forschungsplattform fördert. Forscher und Entwickler können den Code und die Gewichte des Modells frei verwenden und sogar für kommerzielle Zwecke verwendet werden, wodurch die Anwendung und Förderung der Technologie beschleunigt werden.
Projekteingang: https://github.com/aslp-lab/osum?tab=readme-ov-file
Das OSUM-Modell kombiniert den Whisper-Encoder und das QWEN2-Sprachmodell, um mehrere Sprachaufgaben zu unterstützen und das Lernen von mehreren Aufgaben zu unterstützen.
OSUM In technischem Bericht v2.0 stieg das Schulungsdatenvolumen auf 50,5 km Stunden und verbessert die Leistung des Modells.
Der Code und die Gewichte dieses Modells sind geöffnet, um unter der Apache 2.0 -Lizenz zu verwenden, um die weit verbreitete Verwendung in der Wissenschaft und der Industrie zu fördern.