6 марта 2025 года Пекинский институт исследований искусственного интеллекта в Пекине объявил о мультимодальной векторной модели с открытым исходным кодом BGE-VL, которая является новым прорывом в области мультимодального поиска. Модель BGE-VL достигла наилучших результатов в задачах мультимодального поиска, таких как графический и поиск текста и комбинированный поиск изображений, что значительно улучшило производительность мультимодального поиска. Этот прорывной прогресс не только демонстрирует главную позицию Китая в области искусственного интеллекта, но также обеспечивает новое направление для разработки глобальной мультимодальной технологии поиска.
Разработка BGE-VL основана на крупномасштабных мегаапсах синтетических наборов данных, которые эффективно спускают мультимодальные тройные данные из массивного графического корпуса, комбинируя модель мультимодального представления, мультимодальную большую модель и модель большой языка. Этот метод не только имеет превосходную масштабируемость, но и может постоянно генерировать разнообразные и высококачественные данные при чрезвычайно низкой стоимости, но и значительно улучшает качество данных. По сравнению с традиционными данными аннотаций ручной аннотации, мегапейки требуют только 1/70 объема данных для достижения лучших результатов обучения, что обеспечивает важную поддержку данных для будущих мультимодальных исследований.
С точки зрения технической реализации, конструкция Megapairs делится на два ключевых шага: сначала используйте несколько моделей сходства, чтобы добывать множество пар изображений из набора данных изображения; Во-вторых, используйте мультимодальные большие модели с открытым исходным кодом и большие языковые модели, чтобы синтезировать инструкции поиска с открытым доменом. Благодаря такому подходу, Megapairs может масштабировать, высококачественные и разнообразные наборы данных инструкций по мультимодальным поиску без ручного участия. Выпуск этого времени охватывает 26 миллионов образцов, обеспечивая богатую поддержку данных для обучения мультимодальных моделей поиска, что значительно способствует разработке мультимодальной технологии поиска.

Основываясь на наборе данных Megapairs, команда Zhiyuan BGE обучила три мультимодальные модели поиска различных размеров, включая BGE-VL-базу, BGE-VL-Large и BGE-VL-MLLM. Эти модели показывают ведущую производительность, намного превышающую предыдущие методы по нескольким задачам. В 36 задачах оценки мультимодального встраивания массивного многомодального эталона встраивания (MMEB) BGE-VL достиг оптимальной производительности как в производительности с нулевым образцом, так и с помощью тонкой настройки, доказывая свою хорошую способность обобщать задачи. Это достижение не только демонстрирует мощную производительность модели BGE-VL, но также предоставляет новые идеи для будущих мультимодальных исследований.
В комбинированной задаче поиска изображения BGE-VL обновил существующий эталон на наборе оценки цирку, значительно превзойдя базовые показатели сравнения, такие как серия Google Magiclens и MM-эмббия Nvidia. BGE-VL-MLLM улучшает 8,1 процентные точки по сравнению с предыдущей моделью SOTA, в то время как модель BGE-VL-базы превосходит мультимодальные ретриверы других крупномодальных оснований с менее чем 1/50 параметров. Этот прорывной прогресс не только демонстрирует мощную производительность модели BGE-VL, но также предоставляет новые идеи для будущих мультимодальных исследований.
Кроме того, исследование также показывает, что набор данных Megapairs имеет хорошую масштабируемость и эффективность. По мере увеличения размера данных модель BGE-VL показывает постоянную тенденцию роста производительности. По сравнению с Google Magiclens модель SOTA, обученная на 37 -метровой данных с замкнутым исходным кодом, мегапейки требуют только 1/70 шкалы данных (0,5 м) для достижения значительных преимуществ производительности. Это открытие обеспечивает важную поддержку данных для будущих мультимодальных исследований, а также предоставляет новое направление для разработки мультимодальной технологии поиска.
Домашняя страница проекта:
https://github.com/vectorspacelab/megapairs
Адрес модели:
https://huggingface.co/baai/bge-vl-mllm-s1