멀티 모달 인공 지능 분야에서 Zhiyuan Research Institute는 많은 대학들과 협력하여 새로운 멀티 모달 벡터 모델 BGE-VL을 시작했습니다. 이 혁신은 멀티 모달 검색 기술의 주요 획기적인 혁신입니다. BGE 시리즈 모델은 출시 이후 뛰어난 성능에 대해 널리 찬사를 받았으며 BGE-VL의 출시는이 생태계를 더욱 풍부하게 만들었습니다. 이 모델은 그래픽 및 텍스트 검색 및 결합 된 이미지 검색과 같은 많은 주요 작업에서 특히 잘 수행되어 멀티 모달 검색 분야에서 주요 위치를 보여줍니다.
BGE-VL의 성공은 그 뒤에 Megapairs 데이터 합성 기술과 분리 할 수 없습니다. 이 혁신적인 방법은 기존 대규모 그래픽 및 텍스트 데이터를 채굴하여 데이터의 확장 성과 품질을 크게 향상시킵니다. Megapairs는 매우 저렴한 비용으로 다양한 데이터 세트를 생성 할 수 있으며 2,600 만 개가 넘는 샘플을 포함하면 다중 모드 검색 모델을 훈련하기위한 견고한 기초를 제공합니다. 이 기술을 통해 BGE-VL은 여러 주류 멀티 모달 검색 벤치 마크에서 주요 결과를 달성하여 업계에서의 위치를 더욱 통합 할 수있었습니다.

멀티 모달 검색 기술의 개발이 증가함에 따라 정보 수집에 대한 사용자의 요구는 점점 더 다양 해지고 있습니다. 이전 검색 모델은 주로 훈련을 위해 단일 그래픽 쌍에 의존하며 복잡한 결합 입력을 효과적으로 다룰 수 없습니다. BGE-VL은 MegaPairs 데이터를 도입 하여이 제한을 성공적으로 극복하여 모델이 다중 모드 쿼리를보다 포괄적으로 이해하고 처리 할 수 있도록하여 사용자에게보다 정확한 검색 서비스를 제공합니다.
여러 작업의 성능 평가에서 Zhiyuan 팀은 BGE-VL 모델이 MMEB (Mustive Multimodal Embedding Benchmark)에서 특히 잘 수행된다는 것을 발견했습니다. Megapairs는 MMEB에서 대부분의 작업을 다루지 않지만 작업 일반화 기능은 여전히 흥미 롭습니다. 또한 결합 된 이미지 검색의 평가에서 BGE-VL은 또한 Google의 Magiclens 및 Nvidia의 MM-embed와 같은 많은 잘 알려진 모델을 크게 능가하여 멀티 모달 검색 분야에서 주요 위치를 더욱 입증했습니다.

앞으로 Zhiuan Research Institute는 Megapairs 기술을 계속 심화시키고, 더 풍부한 멀티 모드 검색 시나리오와 결합하고,보다 포괄적이고 효율적인 멀티 모달 검색자를 만들어 사용자에게보다 정확한 정보 서비스를 제공하려고 노력할 계획입니다. 멀티 모달 기술의 지속적인 개발로 BGE-VL의 출시는 의심 할 여지없이 관련 분야에서의 추가 탐색과 혁신을 촉진하고 인공 지능 기술의 발전에 새로운 자극을 주입 할 것입니다.
종이 주소 : https://arxiv.org/abs/2412.14475
프로젝트 홈페이지 : https://github.com/vectorspacelab/megapairs
모델 주소 : https://huggingface.co/baai/bge-vl-mllm-s1