Dans le domaine de l'intelligence artificielle multimodale, le Zhiyuan Research Institute a coopéré avec de nombreuses universités pour lancer le nouveau modèle vectoriel multimodal BGE-VL. Cette innovation marque une percée majeure dans la technologie de récupération multimodale. Depuis son lancement, les modèles de la série BGE ont été largement loués pour leurs performances exceptionnelles, et le lancement de BGE-VL a encore enrichi cet écosystème. Ce modèle a particulièrement bien fonctionné dans de nombreuses tâches clés telles que la récupération graphique et de texte et la récupération combinée d'images, démontrant sa position principale dans le domaine de la récupération multimodale.
Le succès de BGE-VL est inséparable de la technologie de synthèse des données Megapairs derrière. Cette méthode innovante améliore considérablement l'évolutivité et la qualité des données en exploitant les données graphiques et texte à grande échelle existantes. Megapairs est en mesure de générer divers ensembles de données à un coût extrêmement faible, et il contenant plus de 26 millions d'échantillons fournit une base solide pour la formation de modèles de récupération multimodaux. Cette technologie a permis à BGE-VL d'obtenir des résultats de premier plan dans plusieurs repères de recherche multimodaux traditionnels, consolidant davantage sa position dans l'industrie.

Avec le développement croissant de la technologie de récupération multimodale, les besoins des utilisateurs pour l'acquisition d'informations deviennent de plus en plus diversifiés. Les modèles de récupération précédents reposent principalement sur une seule paire graphique pour la formation et ne peuvent pas gérer efficacement les entrées combinées complexes. BGE-VL surmonte avec succès cette limitation en introduisant des données Megapairs, permettant au modèle de comprendre et de traiter des requêtes multimodales plus exhaustives, fournissant ainsi aux utilisateurs des services de récupération plus précis.
Dans l'évaluation des performances de plusieurs tâches, l'équipe de Zhiyuan a constaté que le modèle BGE-VL se comportait particulièrement bien sur l'indice d'intégration multimodale massif (MMEB). Bien que Megapairs ne couvre pas la plupart des tâches dans MMEB, ses capacités de généralisation des tâches sont toujours excitantes. De plus, dans l'évaluation de la récupération combinée d'images, BGE-VL a également effectué de façon exceptionnelle, dépassant considérablement de nombreux modèles bien connus, tels que les Magiclens de Google et le MM-Embed de NVIDIA, prouvant davantage sa position principale dans le domaine de la récupération multimodale.

À l'avenir, le Zhiyuan Research Institute prévoit de continuer à approfondir la technologie des mégapairs, de combiner avec des scénarios de recherche multimodaux plus riches et de s'efforcer de créer un chercheur multimodal plus complet et plus efficace pour fournir aux utilisateurs des services d'information plus précis. Avec le développement continu de la technologie multimodale, le lancement de BGE-VL favorisera sans aucun doute l'exploration et l'innovation dans les domaines connexes et injecteront un nouvel élan dans le progrès de la technologie de l'intelligence artificielle.
Adresse papier: https://arxiv.org/abs/2412.14475
Page d'accueil du projet: https://github.com/vectorspacelab/megapairs
Adresse du modèle: https://huggingface.co/baai/bge-vl-mllm-s1