在多模态人工智能领域,智源研究院与多所高校携手合作,推出了全新的多模态向量模型BGE-VL,这一创新标志着多模态检索技术的一次重大突破。自发布以来,BGE 系列模型便因其卓越的性能而广受赞誉,而BGE-VL 的推出则进一步丰富了这一生态系统。该模型在图文检索、组合图像检索等多项关键任务中表现尤为出色,展现了其在多模态检索领域的领先地位。
BGE-VL 的成功离不开其背后的MegaPairs 数据合成技术。这一创新方法通过挖掘现有的大规模图文数据,自动生成高质量的多模态三元组数据,显着提升了数据的可扩展性和质量。 MegaPairs 能够以极低的成本生成多样化的数据集,其包含的超过2600万条样本为多模态检索模型的训练提供了坚实的基础。这一技术使得BGE-VL 在多个主流多模态检索基准上都取得了领先的成绩,进一步巩固了其在行业中的地位。

随着多模态检索技术的日益发展,用户对信息获取的需求也愈发多样化。以往的检索模型多依赖于单一的图文对进行训练,无法有效应对复杂的组合输入。而BGE-VL 通过引入MegaPairs 数据,成功克服了这一局限,使得模型能够更全面地理解和处理多模态查询,从而为用户提供更加精准的检索服务。
在多个任务的性能评测中,智源团队发现BGE-VL 模型在Massive Multimodal Embedding Benchmark(MMEB)上的零样本性能表现尤为优异。尽管MegaPairs 未涵盖MMEB 中的大部分任务,但其任务泛化能力依然令人振奋。此外,在组合图像检索的评测中,BGE-VL 同样表现突出,大幅超过了众多知名模型,如谷歌的MagicLens 和英伟达的MM-Embed,进一步证明了其在多模态检索领域的领先地位。

展望未来,智源研究院计划继续深化MegaPairs 技术,结合更丰富的多模态检索场景,致力于打造更加全面和高效的多模态检索器,为用户提供更为精准的信息服务。随着多模态技术的不断发展,BGE-VL 的推出无疑将推动相关领域的进一步探索与创新,为人工智能技术的进步注入新的动力。
论文地址:https://arxiv.org/abs/2412.14475
项目主页:https://github.com/VectorSpaceLab/MegaPairs
模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1