Dans le domaine de l'intelligence artificielle, le développement rapide des modèles de langage de compréhension de la parole (Sulms) a attiré une attention généralisée. Le laboratoire ASLP de l'Université polytechnique de Northwestern a récemment publié le modèle de compréhension de la parole ouverte OSUM, visant à explorer comment former et utiliser efficacement le modèle de compréhension de la parole pour promouvoir la recherche et l'innovation dans la communauté académique lorsque les ressources académiques sont limitées.
Le modèle OSUM combine l'encodeur Whisper avec le modèle de langue QWEN2 et prend en charge 8 tâches de parole, notamment la reconnaissance de la parole (ASR), la reconnaissance de la parole (SRWT), la détection des événements de la parole (VED), la reconnaissance des émotions de la parole (SER), la reconnaissance du style de la parole (SSR), la classification des sexes (SGC) (SGC), la prédiction de l'âge de l'orateur) et le SGC). En adoptant la stratégie de formation ASR + X, ce modèle peut optimiser efficacement la reconnaissance de la parole tout en effectuant des tâches cibles, améliorant la capacité de l'apprentissage multi-tâches.
La libération du modèle OSUM se concentre non seulement sur les performances, mais met également l'accent sur la transparence. Ses méthodes de formation et son processus de préparation des données ont été ouverts pour fournir des références et des conseils précieuses à la communauté universitaire. Selon le rapport technique V2.0, la quantité de données de formation pour le modèle OSUM a été augmentée à 50,5 000 heures, nettement plus élevé que les 44,1 000 heures précédentes. Parmi eux, il comprend 3000 heures de données de classification des sexes de la parole et 6800 heures de données de prédiction de l'âge du locuteur. L'expansion de ces données rend le modèle meilleur dans diverses tâches.
Selon les résultats de l'évaluation, OSUM est meilleur que le modèle QWEN2-Audio dans plusieurs tâches, même avec des ressources informatiques et des données de formation nettement moins inférieures. Les résultats d'évaluation pertinents couvrent non seulement l'ensemble de tests public, mais également l'ensemble de tests interne, démontrant les bonnes performances du modèle OSUM sur les tâches de compréhension de la parole.

Le laboratoire ASLP de la Northwestern Polytechnical University a déclaré que l'objectif d'Osum était de promouvoir le développement de technologies avancées de compréhension de la parole grâce à une plate-forme de recherche ouverte. Les chercheurs et les développeurs peuvent utiliser librement le code et les poids du modèle, et peuvent même être utilisés à des fins commerciales, accélérant ainsi l'application et la promotion de la technologie.
Entrée du projet: https://github.com/aslp-lob/osum?tab=readme-ov-file
Le modèle OSUM combine l'encodeur Whisper et le modèle de langue QWEN2 pour prendre en charge plusieurs tâches vocales et aider à l'apprentissage multi-tâches.
OSUM Dans le rapport technique V2.0, le volume des données de formation est passé à 50,5 000 heures, améliorant les performances du modèle.
Le code et les poids de ce modèle sont ouverts à utiliser sous la licence Apache 2.0, encourageant une utilisation généralisée dans le monde universitaire et l'industrie.