Téléchargement Multimodal GPT - Téléchargement du code source Multimodal GPT

Multimodal GPT

Autre code source

1.0.0

Télécharger

? GPT multimodal

Formez un chatbot multimodal avec des instructions visuelles et linguistiques!

Sur la base du modèle multimodal open source OpenFlamingo, nous créons diverses données d'instructions visuelles avec des ensembles de données ouverts, y compris le VQA, le sous-titrage de l'image, le raisonnement visuel, le Text OCR et le dialogue visuel. De plus, nous formons également le composant du modèle de langue d'OpenFlamingo en utilisant uniquement des données d'instructions linguistiques .

La formation conjointe des instructions visuelles et linguistiques améliore efficacement les performances du modèle! Pour plus de détails, veuillez vous référer à notre rapport technique.

Bienvenue à nous rejoindre!

Anglais | 简体中文

Caractéristiques

Soutenez diverses données d'enseignement de la vision et du langage
Paramètre Fineur efficace avec Lora
Régler la vision et la langue en même temps, se complétez les uns les autres

Installation

Pour installer le package dans un environnement existant, exécutez

git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .

ou créer un nouvel environnement conda

conda env create -f environment.yml

Lancez la démo localement

Téléchargez les poids pré-formés.
Utilisez ce script pour convertir les poids de lama au format de visage étreint.
Téléchargez le modèle pré-formé OpenFlamingo à partir d'OpenFlamingo / OpenFlamingo-9b.
Téléchargez notre poids Lora à partir d'ici.
Ensuite, placez ces modèles dans des dossiers checkpoints comme celui-ci:
```
 checkpoints
├── llama-7b_hf
│   ├── config.json
│   ├── pytorch_model-00001-of-00002.bin
│   ├── ......
│   └── tokenizer.model
├── OpenFlamingo-9B
│   └──checkpoint.pt
├──mmgpt-lora-v0-release.pt
```
Lancez la démo Gradio
```
python app.py
```

Exemples

Recette:

Plan de voyage:

Film:

Personne célèbre:

Réglage fin

Préparer des ensembles de données

A-okvqa
Téléchargez l'annotation à partir de ce lien et dézip vers data/aokvqa/annotations .
Il nécessite également des images de l'ensemble de données CoCo qui peuvent être téléchargées à partir d'ici.
Coco Légende
Téléchargez à partir de ce lien et dézip à data/coco .
Il nécessite également des images de l'ensemble de données CoCo qui peuvent être téléchargées à partir d'ici.
OCR VQA
Téléchargez à partir de ce lien et placez-le dans data/OCR_VQA/ .
Llave
Téléchargez depuis Liuhaotian / Llava-Instruct-150k et placez dans data/llava/ .
Il nécessite également des images de l'ensemble de données CoCo qui peuvent être téléchargées à partir d'ici.
Mini-gpt4
Téléchargez à partir de Vision-Cair / CC_SBU_ALIGN et placez-le dans data/cc_sbu_align/ .
Dolly 15K
Téléchargez à partir de Databricks / Databricks-Dolly-15K et placez-les dans data/dolly/databricks-dolly-15k.jsonl .
Alpaga gpt4
Téléchargez-le à partir de ce lien et placez-le dans data/alpaca_gpt4/alpaca_gpt4_data.json .

Vous pouvez également personnaliser le chemin de données dans les configs / dataset_config.py.

Tapis
Téléchargez-le à partir de ce lien et placez-le dans data/baize/quora_chat_data.json .

Commencer à s'entraîner

torchrun --nproc_per_node=8 mmgpt/train/instruction_finetune.py 
  --lm_path checkpoints/llama-7b_hf 
  --tokenizer_path checkpoints/llama-7b_hf 
  --pretrained_path checkpoints/OpenFlamingo-9B/checkpoint.pt 
  --run_name train-my-gpt4 
  --learning_rate 1e-5 
  --lr_scheduler cosine 
  --batch_size 1  
  --tuning_config configs/lora_config.py 
  --dataset_config configs/dataset_config.py 
  --report_to_wandb

Remerciements

Openflamingo
Lave
Alpaga Stanford
Minigpt-4
Llave
Réglage des instructions avec gpt-4

Si vous trouvez notre projet utile pour vos recherches et vos applications, veuillez citer en utilisant ce bibtex:

 @misc { gong2023multimodalgpt ,
      title = { MultiModal-GPT: A Vision and Language Model for Dialogue with Humans } , 
      author = { Tao Gong and Chengqi Lyu and Shilong Zhang and Yudong Wang and Miao Zheng and Qian Zhao and Kuikun Liu and Wenwei Zhang and Ping Luo and Kai Chen } ,
      year = { 2023 } ,
      eprint = { 2305.04790 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-04
taille 107.26KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
La dernière version du cinéma et de la télévision GPT

2023-10-30

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout