Download VLM2Vec - VLM2Vec download de código fonte

VLM2Vec

Código-Fonte de IA

1.0.0

Baixar

VLM2VEC

Este repositório contém o código e os dados do VLM2VEC: modelos de treinamento em visão de visão para tarefas de incorporação multimodais maciças. Neste artigo, pretendemos construir um modelo de incorporação multimodal unificado para quaisquer tarefas.

Abs

Notícias

[2024-12] Nossa equipe está trabalhando ativamente no VLM2VEC v1.1, que introduzirá novos recursos, incluindo negativos, backbones adicionais do VLM, entrada de várias imagens e muito mais. Fique atento!
[2024-12] Lançamos uma nova variante do VLM2VEC construída no backbone llava-next, que atualmente é a nossa versão com melhor desempenho: https://huggingface.co/tiger-lab/vlm2vec-llava-next.
[2024-10] O VLM2VEC foi integrado ao VLLM.
[2024-10] O relatório técnico, código, dados e modelo para VLM2VEC estão todos disponíveis online.

Modelo

Nosso modelo é baseado na conversão de um VLM bem treinado existente em um modelo de incorporação. A idéia básica é pegar o último token no final da sequência como representação das entradas multimodais. Nossa estrutura VLM2VEC é compatível com qualquer VLMS de código aberto SOTA. Ao aproveitar diversos dados de treinamento - abrangendo uma variedade de combinações, tarefas e instruções de modalidade - gera um modelo robusto de incorporação multimodal universal.

Abs

VLM2VEC-PHI3.5V
VLM2VEC-LLAVA-NEXT ( melhor versão atual VLM2VEC )
Mais por vir!

Dados

Nosso modelo está sendo treinado em MMEB-train (20 tarefas) e avaliado em MMEB-EVAL (20 tarefas de IND e 16 tarefas de OOD).

Dados de treinar
Dados de avaliação

Resultados experimentais

Nosso modelo pode superar as linhas de base existentes em uma enorme margem. Abs

Início rápido

Fornecemos várias amostras, incluindo código de demonstração e avaliação, localizado nos scripts/ diretório.

Treinamento

Baixe o zíper do arquivo de imagem do huggingface

 git lfs install
git clone https://huggingface.co/datasets/TIGER-Lab/MMEB-train
cd MMEB-train
python unzip_file.py
cd ../

Para GPUs com memória pequena, use o gradcache para reduzir o uso da memória, ou seja, definindo pequenos valores como --gc_q_chunk_size e --gc_p_chunk_size .

Use --lora --lora_r 16 para ativar o ajuste do LORA.

torchrun --nproc_per_node=2 --master_port=22447 --max_restarts=0 train.py 
 --model_name microsoft/Phi-3.5-vision-instruct --bf16 --pooling last 
 --dataset_name TIGER-Lab/MMEB-train 
 --subset_name ImageNet_1K N24News HatefulMemes InfographicsVQA ChartQA Visual7W VisDial CIRR NIGHTS WebQA MSCOCO 
 --num_sample_per_subset 50000 
 --image_dir MMEB-train 
 --max_len 256 --num_crops 4 --output_dir $OUTPUT_DIR --logging_steps 1 
 --lr_scheduler_type linear --learning_rate 2e-5 --max_steps 2000 
 --warmup_steps 200 --save_steps 1000 --normalize True 
 --temperature 0.02 --per_device_train_batch_size 8 
 --grad_cache True --gc_q_chunk_size 2 --gc_p_chunk_size 2

Inferência e avaliação

Baixe o zíper do arquivo de imagem do huggingface

wget https://huggingface.co/datasets/TIGER-Lab/MMEB-eval/resolve/main/images.zip
unzip images.zip -d eval_images/

Para modelos completos, usamos

python eval.py --model_name TIGER-Lab/VLM2Vec-Full 
  --encode_output_path outputs/ 
  --num_crops 4 --max_len 256 
  --pooling last --normalize True 
  --dataset_name TIGER-Lab/MMEB-eval 
  --subset_name N24News CIFAR-100 HatefulMemes VOC2007 SUN397 ImageNet-A ImageNet-R ObjectNet Country211 
  --dataset_split test --per_device_eval_batch_size 16 
  --image_dir eval_images/

Para modelos baseados em Lora, usamos

python eval.py --lora --model_name microsoft/Phi-3.5-vision-instruct --checkpoint_path TIGER-Lab/VLM2Vec-LoRA 
  --encode_output_path outputs/ 
  --num_crops 4 --max_len 256 
  --pooling last --normalize True 
  --dataset_name TIGER-Lab/MMEB-eval 
  --subset_name N24News CIFAR-100 HatefulMemes VOC2007 SUN397 ImageNet-A ImageNet-R ObjectNet Country211 
  --dataset_split test --per_device_eval_batch_size 16 
  --image_dir eval_images/

Reconhecimento

Adaptamos o código da Tevatron, um kit de ferramentas flexível e eficiente que suporta treinamento e inferência por modelos de recuperação neural.

Citação

 @article{jiang2024vlm2vec,
  title={VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks},
  author={Jiang, Ziyan and Meng, Rui and Yang, Xinyi and Yavuz, Semih and Zhou, Yingbo and Chen, Wenhu},
  journal={arXiv preprint arXiv:2410.05160},
  year={2024}
}