Download Multimodal GPT - Download Multimodal GPT

Multimodal GPT

Outro código-fonte

1.0.0

Baixar

? Gpt multimodal

Treine um chatbot multimodal com instruções visuais e de idioma!

Com base no modelo multimodal de código aberto OpenFlamingo, criamos vários dados de instruções visuais com conjuntos de dados abertos, incluindo VQA, legenda de imagem, raciocínio visual, OCR de texto e diálogo visual. Além disso, também treinamos o componente do modelo de idioma do OpenFlamingo usando apenas dados de instrução somente em idiomas .

O treinamento conjunto de instruções visuais e de idioma melhora efetivamente o desempenho do modelo! Para mais detalhes, consulte nosso relatório técnico.

Bem -vindo para se juntar a nós!

Inglês | 简体中文

Características

Apoiar vários dados de instrução de visão e idioma
Parâmetro eficiente ajuste fino com Lora
Visão e linguagem de ajuste ao mesmo tempo, complementam -se

Instalação

Para instalar o pacote em um ambiente existente, execute

git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .

ou crie um novo ambiente de conda

conda env create -f environment.yml

Inicie a demonstração localmente

Faça o download dos pesos pré-treinados.
Use este script para converter pesos de lhama em abraçar o formato do rosto.
Faça o download do modelo pré-treinado OpenFlamingo do OpenFlamingo/OpenFlamingo-9b.
Faça o download do nosso peso Lora a partir daqui.
Em seguida, coloque esses modelos em pastas de checkpoints como esta:
```
 checkpoints
├── llama-7b_hf
│   ├── config.json
│   ├── pytorch_model-00001-of-00002.bin
│   ├── ......
│   └── tokenizer.model
├── OpenFlamingo-9B
│   └──checkpoint.pt
├──mmgpt-lora-v0-release.pt
```
Lançar a demonstração do graduado
```
python app.py
```

Exemplos

Receita:

Plano de viagem:

Filme:

Pessoa famosa:

imagem

Afinação

Prepare conjuntos de dados

A-OKVQA
Faça o download da anotação deste link e descompacte para data/aokvqa/annotations .
Ele também requer imagens do conjunto de dados Coco, que podem ser baixadas a partir daqui.
Legenda Coco
Faça o download deste link e descompacte para data/coco .
Ele também requer imagens do conjunto de dados Coco, que podem ser baixadas a partir daqui.
OCR VQA
Faça o download deste link e coloque em data/OCR_VQA/ .
Llava
Faça o download de Liuhaotian/llava-Instruct-150K e coloque em data/llava/ .
Ele também requer imagens do conjunto de dados Coco, que podem ser baixadas a partir daqui.
Mini-GPT4
Faça o download de Vision-Cair/cc_sbu_align e coloque data/cc_sbu_align/ .
Dolly 15k
Faça o download de Databricks/Databricks-Dolly-15K e coloque-o em data/dolly/databricks-dolly-15k.jsonl .
ALPACA GPT4
Faça o download deste link e coloque -o em data/alpaca_gpt4/alpaca_gpt4_data.json .

Você também pode personalizar o caminho dos dados nos configs/dataset_config.py.

Baize
Faça o download deste link e coloque -o em data/baize/quora_chat_data.json .

Comece a treinar

torchrun --nproc_per_node=8 mmgpt/train/instruction_finetune.py 
  --lm_path checkpoints/llama-7b_hf 
  --tokenizer_path checkpoints/llama-7b_hf 
  --pretrained_path checkpoints/OpenFlamingo-9B/checkpoint.pt 
  --run_name train-my-gpt4 
  --learning_rate 1e-5 
  --lr_scheduler cosine 
  --batch_size 1  
  --tuning_config configs/lora_config.py 
  --dataset_config configs/dataset_config.py 
  --report_to_wandb

Agradecimentos

OpenFlamingo
Lavis
Stanford Alpaca
Minigpt-4
Llava
Ajuste de instrução com GPT-4

Se você achar nosso projeto útil para sua pesquisa e aplicativos, cite usando este Bibtex:

 @misc { gong2023multimodalgpt ,
      title = { MultiModal-GPT: A Vision and Language Model for Dialogue with Humans } , 
      author = { Tao Gong and Chengqi Lyu and Shilong Zhang and Yudong Wang and Miao Zheng and Qian Zhao and Kuikun Liu and Wenwei Zhang and Ping Luo and Kai Chen } ,
      year = { 2023 } ,
      eprint = { 2305.04790 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-04
tamanho 107.26KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
A versão mais recente do filme e televisão GPT

2023-10-30

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos