Alibaba Damo Academy выпустила Valley2, мультимодальную крупномасштабную языковую модель, основанную на сценариях электронной коммерции. Эта модель сочетает в себе Qwen2.5, визуальный кодировщик SigLIP-384, инновационные модули Eagle и адаптеры свертки для повышения производительности электронной коммерции и приложений. в поле короткого видео. Набор данных Valley2 охватывает данные в стиле OneVision, данные электронной коммерции и короткие видео, а также данные цепного мышления. После многоэтапного обучения он достиг отличных результатов в многочисленных общедоступных тестах производительности, особенно в оценках, связанных с электронной коммерцией. Оптимизация проектирования архитектуры и стратегии обучения дает новые идеи для повышения производительности мультимодальных больших моделей.
Alibaba Damo Academy недавно запустила мультимодальную крупномасштабную языковую модель под названием Valley2. Эта модель разработана на основе сценариев электронной коммерции и направлена на повышение производительности в различных областях и расширение электронной коммерции и краткосрочного использования за счет масштабируемой визуальной модели. Языковая архитектура. Границы применения видеосцен. Valley2 использует Qwen2.5 в качестве магистрали LLM в сочетании с визуальным кодировщиком SigLIP-384 и объединяет слои MLP и свертки для эффективного преобразования функций. Его инновация заключается во внедрении большого визуального словаря, адаптера свертки (ConvAdapter) и модуля Eagle, который повышает гибкость обработки разнообразных входных данных из реального мира и эффективность обучающего вывода.

Данные Valley2 состоят из данных в стиле OneVision, данных для электронной коммерции и полей коротких видео, а также данных цепочки мышления (CoT) для решения сложных проблем. Процесс обучения разделен на четыре этапа: выравнивание текста и изображений, качественное усвоение знаний, отработка инструкций и посттренинговое цепное мышление. В ходе экспериментов Valley2 показала хорошие результаты в нескольких публичных тестах производительности, особенно в MMBench, MMStar, MathVista и других тестах, а также превзошла другие модели того же размера в тесте Ecom-VQA.
В будущем Alibaba DAMO Academy планирует выпустить комплексную модель, включающую модальности текста, изображения, видео и аудио, а также представить основанный на Valley метод обучения мультимодальному внедрению для поддержки последующих приложений поиска и обнаружения.
Запуск Valley2 знаменует собой важный прогресс в области мультимодальных крупномасштабных языковых моделей, демонстрируя возможность повышения производительности моделей за счет структурных улучшений, построения наборов данных и оптимизации стратегии обучения.
Ссылка на модель:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
Ссылка на код:
https://github.com/bytedance/Valley
Бумажная ссылка:
https://arxiv.org/abs/2501.05901
Выпуск Valley2 не только демонстрирует передовые технологии Alibaba Damo Academy в области мультимодальных больших моделей, но также указывает на то, что в будущем области электронной коммерции и коротких видео откроют более инновационные приложения на основе искусственного интеллекта. Мы с нетерпением ожидаем, что Valley2 сможет и дальше улучшать и расширять свои сценарии применения в будущем, предоставляя пользователям более удобные и интеллектуальные услуги.