マルチモーダル人工知能の分野では、Zhiyuan Research Instituteが多くの大学と協力して、新しいマルチモーダルベクターモデルBGE-VLを立ち上げました。このイノベーションは、マルチモーダル検索技術の大きなブレークスルーです。 BGEシリーズモデルは発売以来、優れたパフォーマンスで広く称賛されており、BGE-VLの発売によりこのエコシステムがさらに豊富になりました。このモデルは、グラフィックとテキストの取得、画像検索を組み合わせた多くの重要なタスクで特にうまく機能し、マルチモーダル検索の分野での主要な位置を示しています。
BGE-VLの成功は、その背後にあるMegapairs Data Synthesisテクノロジーと切り離せません。この革新的な方法は、既存の大規模なグラフィックデータとテキストデータをマイニングすることにより、データのスケーラビリティと品質を大幅に向上させます。 Megapairsは、非常に低コストで多様なデータセットを生成することができ、2600万を超えるサンプルを含むことは、マルチモーダル検索モデルをトレーニングするための強固な基盤を提供します。この技術により、BGE-VLは複数の主流のマルチモーダル検索ベンチマークで主要な結果を達成することができ、業界での地位をさらに統合しました。

マルチモーダル検索テクノロジーの開発の増加に伴い、情報取得のためのユーザーのニーズはますます多様化されています。以前の検索モデルは、主にトレーニングのために単一のグラフィックペアに依存しており、複雑な組み合わせの入力を効果的に処理することはできません。 BGE-VLは、Megapairsデータを導入し、モデルがマルチモーダルクエリをより包括的に理解および処理できるようにすることで、この制限を克服し、ユーザーにより正確な検索サービスを提供します。
複数のタスクのパフォーマンス評価において、Zhiyuanチームは、BGE-VLモデルが大規模なマルチモーダル埋め込みベンチマーク(MMEB)で特にうまく機能することを発見しました。 MegapairsはMMEBのほとんどのタスクをカバーしていませんが、タスクの一般化機能は依然として刺激的です。さらに、組み合わせた画像検索の評価において、BGE-VLはまた、GoogleのMagiclensやNvidiaのMM埋め込みなど、多くの有名なモデルを大幅に上回り、マルチモーダル回復の分野での主要な位置をさらに証明しました。

Zhiyuan Research Instituteは、Megapairsテクノロジーを深め、より豊かなマルチモーダル検索シナリオと組み合わせ、より包括的で効率的なマルチモーダル検索者を作成して、より正確な情報サービスをユーザーに提供するよう努めています。マルチモーダルテクノロジーの継続的な開発により、BGE-VLの発売は、間違いなく関連分野でのさらなる調査と革新を促進し、人工知能技術の進歩に新しい衝動を注入します。
紙の住所:https://arxiv.org/abs/2412.14475
プロジェクトホームページ:https://github.com/vectorspacelab/megapairs
モデルアドレス:https://huggingface.co/baai/bge-vl-mllm-s1