Descarga Multimodal GPT - Descargar el código fuente de Multimodal GPT

Multimodal GPT

Otro código fuente

1.0.0

Descargar

? GPT multimodal

¡Entrena un chatbot multimodal con instrucciones visuales y de lenguaje!

Basado en el modelo multimodal de código abierto OpenFlamingo, creamos varios datos de instrucciones visuales con conjuntos de datos abiertos, incluidos VQA, subtítulos de imágenes, razonamiento visual, OCR de texto y diálogo visual. Además, también capacitamos el componente del modelo de idioma de OpenFlamingo utilizando solo datos de instrucciones de solo lenguaje .

¡La capacitación conjunta de las instrucciones visuales y del lenguaje mejora efectivamente el rendimiento del modelo! Para obtener más detalles, consulte nuestro informe técnico.

¡Bienvenido a unirse a nosotros!

Inglés | 简体中文

Características

Apoyar varios datos de instrucciones de visión e lenguaje
Parámetros ajustado eficiente con lora
Tuning de visión y lenguaje al mismo tiempo, complementarse entre sí

Instalación

Para instalar el paquete en un entorno existente, ejecute

git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .

o crear un nuevo entorno de condena

conda env create -f environment.yml

Lanzamiento de demostración localmente

Descargue los pesos previamente capacitados.
Use este script para convertir pesas de llama en formato de cara abrazada.
Descargue el modelo pre-entrenado OpenFlamingo desde OpenFlamingo/OpenFlamingo-9B.
Descargue nuestro peso de Lora desde aquí.
Luego coloque estos modelos en carpetas de checkpoints como esta:
```
 checkpoints
├── llama-7b_hf
│   ├── config.json
│   ├── pytorch_model-00001-of-00002.bin
│   ├── ......
│   └── tokenizer.model
├── OpenFlamingo-9B
│   └──checkpoint.pt
├──mmgpt-lora-v0-release.pt
```
Iniciar la demostración de Gradio
```
python app.py
```

Ejemplos

Receta:

imagen4

Plan de viaje:

imagen3

Película:

imagen2

Persona famosa:

imagen

Sintonia FINA

Preparar conjuntos de datos

A-okvqa
Descargue la anotación de este enlace y descifra a data/aokvqa/annotations .
También requiere imágenes del conjunto de datos de Coco que se pueden descargar desde aquí.
Subtítulos
Descargue desde este enlace y descomprima a data/coco .
También requiere imágenes del conjunto de datos de Coco que se pueden descargar desde aquí.
OCR VQA
Descargue desde este enlace y coloque en data/OCR_VQA/ .
Llava
Descargue de Liuhaotian/Llava-Instructo-150k y coloque en data/llava/ .
También requiere imágenes del conjunto de datos de Coco que se pueden descargar desde aquí.
Mini-GPT4
Descargar desde Vision-Cair/CC_SBU_Align y colocar en data/cc_sbu_align/ .
Dolly 15k
Descargue de Databricks/Databricks-Dolly-15k y colóquelo en data/dolly/databricks-dolly-15k.jsonl .
Alpaca GPT4
Descárguelo desde este enlace y colóquelo en data/alpaca_gpt4/alpaca_gpt4_data.json .

También puede personalizar la ruta de datos en Configs/DataSet_Config.py.

Bayeta
Descárguelo desde este enlace y colóquelo en data/baize/quora_chat_data.json .

Comience el entrenamiento

torchrun --nproc_per_node=8 mmgpt/train/instruction_finetune.py 
  --lm_path checkpoints/llama-7b_hf 
  --tokenizer_path checkpoints/llama-7b_hf 
  --pretrained_path checkpoints/OpenFlamingo-9B/checkpoint.pt 
  --run_name train-my-gpt4 
  --learning_rate 1e-5 
  --lr_scheduler cosine 
  --batch_size 1  
  --tuning_config configs/lora_config.py 
  --dataset_config configs/dataset_config.py 
  --report_to_wandb

Expresiones de gratitud

Openflamingo
Lavis
Stanford Alpaca
Minigt-4
Llava
Ajuste de instrucciones con GPT-4

Si encuentra útil nuestro proyecto para su investigación y aplicaciones, cite con este bibtex:

 @misc { gong2023multimodalgpt ,
      title = { MultiModal-GPT: A Vision and Language Model for Dialogue with Humans } , 
      author = { Tao Gong and Chengqi Lyu and Shilong Zhang and Yudong Wang and Miao Zheng and Qian Zhao and Kuikun Liu and Wenwei Zhang and Ping Luo and Kai Chen } ,
      year = { 2023 } ,
      eprint = { 2305.04790 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-04
tamaño 107.26KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
La última versión de GPT cine y televisión.

2023-10-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo