В области искусственного интеллекта быстрое развитие моделей языка понимания речи (SULM) привлекло широкое внимание. Северо -западный политехнический университет ASLP Laboratory недавно выпустил модель открытого понимания речи OSUM, направленную на изучение того, как эффективно обучать и использовать модель понимания речи для содействия исследованиям и инновациям в академическом сообществе, когда академические ресурсы ограничены.
Модель OSUM сочетает в себе кодер Whisper с языковой моделью QWEN2 и поддерживает 8 задач речи, включая распознавание речи (ASR), распознавание речи (SRWT), обнаружение речевых событий (VED), распознавание речевых эмоций (SER), распознавание стиля речи (SSR), классификация гендерной классификации (SGC), SOPER AGE PRIDICELICE (SAP) и VOICE-TOCTCTC. Приняв стратегию обучения ASR+X, эта модель может эффективно и стабильно оптимизировать распознавание речи, выполняя целевые задачи, улучшая способность многозадачного обучения.
Выпуск модели OSUM не только фокусируется на производительности, но и подчеркивает прозрачность. Его методы обучения и процесс подготовки данных были открыты для обеспечения ценной ссылки и руководства для академического сообщества. Согласно техническому отчету v2.0, объем учебных данных для модели OSUM был увеличен до 50,5 тыс. Часов, что значительно выше, чем в предыдущие 44,1k часов. Среди них он включает в себя 3000 часов данных по гендерной классификации речи и 6800 часов данных прогнозирования возраста динамиков. Расширение этих данных делает модель лучше работать в различных задачах.
Согласно результатам оценки, OSUM лучше, чем модель QWEN2-AUDIO в нескольких задачах, даже с значительно меньшими вычислительными ресурсами и учебными данными. Соответствующие результаты оценки охватывают не только общедоступный набор тестов, но и внутренний набор тестов, демонстрируя хорошую производительность модели OSUM по задачам понимания речи.

Лаборатория ASLP Северо -западного политехнического университета заявила, что цель OSUM состоит в том, чтобы содействовать разработке технологий передового понимания речи через открытую исследовательскую платформу. Исследователи и разработчики могут свободно использовать код и веса модели и даже могут использоваться в коммерческих целях, тем самым ускоряя применение и продвижение технологий.
Вход в проект: https://github.com/aslp-lab/osum?tab=readme-ov-file
Модель OSUM сочетает в себе кодер Whisper и модель языка QWEN2, чтобы поддержать несколько голосовых задач и помочь многозадачному обучению.
OSUM В техническом отчете v2.0 объем обучающих данных увеличился до 50,5 тыс. Часов, улучшив производительность модели.
Код и вес этой модели открыты для использования в соответствии с лицензией Apache 2.0, поощряя широкое использование в научных кругах и промышленности.