En el campo de la inteligencia artificial, el rápido desarrollo de los modelos de lenguaje de comprensión del habla (SULMS) ha atraído una atención generalizada. El Laboratorio ASLP de la Universidad Politécnica del Noroeste lanzó recientemente el modelo de comprensión del habla abierta Osum, con el objetivo de explorar cómo capacitar y utilizar de manera efectiva el modelo de comprensión del habla para promover la investigación y la innovación en la comunidad académica cuando los recursos académicos son limitados.
El modelo OSUM combina el codificador Whisper con el modelo de lenguaje QWEN2 y admite 8 tareas del habla, incluidos el reconocimiento de voz (ASR), el reconocimiento de voz de tiempo de tiempo (SRWT), la detección de eventos del habla (VED), el reconocimiento de emociones del habla (SER), el reconocimiento de estilo de habla (SSR), la clasificación de género de los hablantes (SGC), la predicción de la edad de la edad de los altavantes (SAP) y el estilo de estilo-T-T-Tet (Cats). Al adoptar la estrategia de entrenamiento ASR+X, este modelo puede optimizar de manera eficiente y estable el reconocimiento de voz mientras realiza tareas objetivo, mejorando la capacidad del aprendizaje de varias tareas.
El lanzamiento del modelo OSUM no solo se centra en el rendimiento, sino que también enfatiza la transparencia. Sus métodos de capacitación y proceso de preparación de datos se han abierto para proporcionar una valiosa referencia y orientación a la comunidad académica. Según el informe técnico v2.0, la cantidad de datos de capacitación para el modelo OSUM se ha incrementado a 50.5k horas, significativamente más alta que las 44.1k horas anteriores. Entre ellos, incluye 3000 horas de datos de clasificación de género del habla y 6800 horas de datos de predicción de edad del altavoz. La expansión de estos datos hace que el modelo funcione mejor en varias tareas.
Según los resultados de la evaluación, OSUM es mejor que el modelo QWEN2-Audio en múltiples tareas, incluso con recursos informáticos y datos de capacitación significativamente menos informáticos. Los resultados de la evaluación relevantes cubren no solo el conjunto de pruebas públicas, sino también el conjunto de pruebas internas, lo que demuestra el buen rendimiento del modelo OSUM en las tareas de comprensión del habla.

El Laboratorio ASLP de la Universidad Politécnica del Noroeste dijo que el objetivo de Osum es promover el desarrollo de tecnologías avanzadas de comprensión del habla a través de una plataforma de investigación abierta. Los investigadores y desarrolladores pueden usar libremente el código y los pesos del modelo, e incluso pueden usarse con fines comerciales, acelerando así la aplicación y la promoción de la tecnología.
Entrada del proyecto: https://github.com/aslp-lab/osum?tab=readme-ov-file
El modelo OSUM combina el codificador Whisper y el modelo de lenguaje QWEN2 para admitir múltiples tareas de voz y ayudar al aprendizaje de múltiples tareas.
Osum en el informe técnico v2.0, el volumen de datos de capacitación aumentó a 50.5k horas, mejorando el rendimiento del modelo.
El código y los pesos de este modelo están abiertos a su uso bajo la licencia Apache 2.0, fomentando el uso generalizado en la academia y la industria.