No campo da inteligência artificial multimodal, o Zhiyuan Research Institute cooperou com muitas universidades para lançar o novo modelo de vetor multimodal BGE-VL. Essa inovação marca um grande avanço na tecnologia de recuperação multimodal. Desde o seu lançamento, os modelos da BGE Series foram amplamente elogiados por seu excelente desempenho, e o lançamento do BGE-VL enriqueceu ainda mais esse ecossistema. Esse modelo teve um desempenho particularmente bem em muitas tarefas -chave, como recuperação gráfica e de texto e recuperação combinada de imagens, demonstrando sua posição de liderança no campo da recuperação multimodal.
O sucesso do BGE-VL é inseparável da tecnologia de síntese de dados Megapairs por trás dele. Esse método inovador melhora significativamente a escalabilidade e a qualidade dos dados, minerando dados gráficos e de texto em larga escala existentes. A Megapairs é capaz de gerar diversos conjuntos de dados a um custo extremamente baixo, e seu contendo mais de 26 milhões de amostras fornece uma base sólida para o treinamento de modelos de recuperação multimodal. Essa tecnologia permitiu que o BGE-VL atingisse os principais resultados em vários benchmarks de pesquisa multimodais convencionais, consolidando ainda mais sua posição no setor.

Com o crescente desenvolvimento da tecnologia de recuperação multimodal, as necessidades de aquisição de informações dos usuários estão se tornando cada vez mais diversas. Os modelos de recuperação anteriores dependem principalmente de um único par gráfico para treinamento e não podem lidar efetivamente com entradas combinadas complexas. O BGE-VL supera com sucesso essa limitação, introduzindo dados de megapairs, permitindo que o modelo compreenda e processe de maneira mais abrangente e processar consultas multimodais, fornecendo aos usuários serviços de recuperação mais precisos.
Na avaliação de desempenho de várias tarefas, a equipe Zhiyuan descobriu que o modelo BGE-VL teve um desempenho particularmente bom no enorme benchmark de incorporação multimodal (MMEB). Embora a Megapairs não cubra a maioria das tarefas no MMEB, seus recursos de generalização de tarefas ainda são emocionantes. Além disso, na avaliação da recuperação combinada de imagens, o BGE-VL também teve um desempenho extraordinário, superando significativamente muitos modelos conhecidos, como o Magiclens do Google e o MM-encarregado da NVIDIA, provando ainda mais sua posição de liderança no campo da recuperação multimodal.

Olhando para o futuro, o Zhiyuan Research Institute planeja continuar a aprofundar a tecnologia Megapairs, combinar -se com cenários de pesquisa multimodais mais ricos e se esforçar para criar um pesquisador multimodal mais abrangente e eficiente para fornecer aos usuários serviços de informação mais precisos. Com o desenvolvimento contínuo da tecnologia multimodal, o lançamento do BGE-VL, sem dúvida, promoverá mais exploração e inovação em campos relacionados e injetará um novo impulso no progresso da tecnologia de inteligência artificial.
Endereço em papel: https://arxiv.org/abs/2412.14475
Página inicial do projeto: https://github.com/vectorspacelab/megapairs
Endereço do modelo: https://huggingface.co/baai/bge-vl-mllm-s1