No campo da inteligência artificial, o rápido desenvolvimento de modelos de linguagem de compreensão da fala (Sulms) atraiu atenção generalizada. A Northwestern Polytechnical University ASLP Laboratory divulgou recentemente o modelo de compreensão de fala aberta Osum, com o objetivo de explorar como treinar e utilizar efetivamente o modelo de compreensão de fala para promover pesquisas e inovação na comunidade acadêmica quando os recursos acadêmicos são limitados.
O modelo OSUM combina o codificador do Whisper com o modelo de idioma QWEN2 e suporta 8 tarefas de fala, incluindo reconhecimento de fala (ASR), reconhecimento de fala mais impressionado (SRWT), detecção de eventos de fala (VED), reconhecimento de emoção da fala (SER), reconhecimento de estilo de fala (SSR), classificação de gênero de alto-falante (SGC), Sper), Speard Prenomition (SSR), Speaker Gender-Classification (SG), Speaner Age Agesting Predizer (SPEL) (SSR), STC). Ao adotar a estratégia de treinamento ASR+X, esse modelo pode otimizar de maneira eficiente e estável o reconhecimento de fala enquanto executa tarefas de destino, melhorando a capacidade de aprender multitarefa.
A liberação do modelo OSUM não se concentra apenas no desempenho, mas também enfatiza a transparência. Seus métodos de treinamento e processo de preparação de dados foram abertos para fornecer referência e orientação valiosas à comunidade acadêmica. De acordo com o relatório técnico v2.0, a quantidade de dados de treinamento para o modelo OSUM foi aumentada para 50,5 mil horas, significativamente maior que as 44,1 mil horas anteriores. Entre eles, inclui 3000 horas de dados de classificação de gênero da fala e 6800 horas de dados de previsão da idade do alto -falante. A expansão desses dados torna o modelo melhor em várias tarefas.
De acordo com os resultados da avaliação, o OSUM é melhor que o modelo QWEN2-AUDIO em várias tarefas, mesmo com significativamente menos recursos de computação e dados de treinamento. Os resultados da avaliação relevante abrangem não apenas o conjunto de testes públicos, mas também o conjunto de testes internos, demonstrando o bom desempenho do modelo OSUM nas tarefas de compreensão de fala.

O Laboratório ASLP da Universidade Politécnica do Noroeste disse que o objetivo da OSUM é promover o desenvolvimento de tecnologias avançadas de compreensão da fala por meio de uma plataforma de pesquisa aberta. Pesquisadores e desenvolvedores podem usar livremente o código e os pesos do modelo e podem até ser usados para fins comerciais, acelerando assim a aplicação e a promoção da tecnologia.
Entrada do projeto: https://github.com/aslp-lab/osum?tab=readme-ov-file
O modelo OSUM combina o codificador Whisper e o modelo de idioma QWEN2 para suportar várias tarefas de voz e ajudar a aprender multi-tarefa.
OSUM no relatório técnico v2.0, o volume de dados de treinamento aumentou para 50,5 mil horas, melhorando o desempenho do modelo.
O código e os pesos deste modelo estão abertos a serem usados sob a licença Apache 2.0, incentivando o uso generalizado na academia e na indústria.