Téléchargement NExT GPT - Téléchargement du code source NExT GPT

NExT GPT

Autre code source

1.0.0

Télécharger

Next-GPT: any-to any Multimodal LLM

Shengqiong Wu, Hao Fei *, Leigang Qu, Wei Ji et Tat-Seng Chua. (* Correspondance)

ICML 2024, papier oral

Next ++ Research Center, School of Computing, Université nationale de Singapour

Ce référentiel héberge le code, les données et le poids du modèle de Next-GPT , le premier MM-LLM de bout en bout qui perçoit l'entrée et génère la sortie dans des combinaisons arbitraires (tout-à-tout) du texte, de l'image, de la vidéo et de l'audio et au-delà.

Remarqué : Nous enroulons l'ancienne vieille base de code dans le prochain GPT-Lagacy. Veuillez vous référer à cette nouvelle base de code pour toutes les procédures de formation et de réglage.

? Nouvelles

[2023.09.15] Libérez le code de Next-GPT dans la version 7b_tiva_v0 .
[2023.09.27] ?? Ajout de l'échantillonneur par lots mélangés à la modalité.
[2023.10.01] ?? Libérez l'ensemble de données d'instructions T2M.
[2023.10.04] ?? Libérez le point de contrôle de Next-GPT dans la version 7b_tiva_v0.
[2023.10.15]? Mise à jour de Next-GPT dans la version 7b_tiva_v0.
[2024.10.07] ?? Libérez les données et les méthodes de construction correspondantes, veuillez référer Data_readme.md pour plus de détails.

FAIRE

Mise à jour de Next-GPT dans plus de types et tailles de LLMS.
Autonomiser Next-GPT avec plus de modalités d'entrées et de sorties.
...

Exemples de démos

Ici, nous présentons des exemples générés à partir de Next-GPT. Pour plus d'exemples, veuillez visiter la page Web ou la démo en direct en ligne.

Exemple_5_trim.mp4

Exemple_6_trim.mp4

Exemple_9_trim.mp4

Une brève introduction

Next-GPT est construite au-dessus des modèles de diffusion LLM pré-formés existants, d'encodeur multimodal et de diffusion SOTA, avec un réglage d'instructions de bout en bout suffisant.

Vidéo-llama

Étape de codage multimodal. Tirer parti des encodeurs établis pour coder les entrées dans diverses modalités, où ces représentations sont projetées dans des représentations de type langue compréhensibles pour le LLM via une couche de projection.
LLM compréhension et stade de raisonnement. Exploiter un LLM existant open source comme noyau pour traiter les informations d'entrée pour la compréhension et le raisonnement sémantiques. Le LLM génère non seulement directement des jetons de texte, mais produit également des jetons de «signal de modalité» uniques qui servent d'instructions pour dicter les couches de décodage si et quel contenu modal à sortir en conséquence.
Étape de génération multimodale. Recevant les signaux multimodaux avec des instructions spécifiques de LLM (le cas échéant), les couches de projection de sortie basées sur le transformateur mappent les représentations de jeton de signal dans celles qui sont compréhensibles pour suivre les décodeurs multimodaux.

Pour plus de détails techniques, veuillez consulter le document.

Démarrage de

la table des matières:

1. Structure de code
2. Préparation de l'environnement
3. Formation / adaptation Next-GPT sur votre propre
- 3.1. Préparation du point de contrôle pré-formé
- 3.2. Préparation de l'ensemble de données
- 3.3. Précompagne intégrale
- 3.4. Formation Next-GPT
4. Exécution du système Next-GPT
- 4.1. Préparation des points de contrôle
- 4.2. Déploiement du système de démonstration
5. Fonctionnement de votre propre système
- 5.1. Ensemble de données
- 5.2. Framework du modèle
- 5.3. Réglage fin

1. Structure de code

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2

.

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3. Formation / adaptation de Next-GPT sur votre propre

3.1. La préparation du point de contrôle pré-formé [Back to TOP]

Next-GPT est formée en fonction de l'excellent modèle existant. Veuillez suivre les instructions pour préparer les points de contrôle.

ImageBind est l'encodeur d'image / vidéo / audio unifié. Le point de contrôle pré-formé peut être téléchargé à partir d'ici avec une version huge . Ensuite, mettez le fichier imagebind_huge.pth sur [.pretrain_ckpt / imagebind].
Vicuna : Préparez la vicuna pré-entraînée de [ici]. Ensuite, mettez le modèle pré-formé sur [./pretrain_ckpt/vicuna-7b-v1.5/].
Image Diffusion est utilisée pour générer des images. Next-GPT utilise une diffusion stable avec la version v2 . ( sera automatiquement téléchargé )
Audio Diffusion pour la production de contenu audio. Next-GPT utilise Audioldm avec la version l-full . ( sera automatiquement téléchargé )
Video Diffusion pour la génération vidéo. Nous utilisons le zéroscope avec la version v2_576w . ( sera automatiquement téléchargé )

3.2. Préparation d'un ensemble de données [Retour vers le haut]

Veuillez télécharger les ensembles de données suivants utilisés pour la formation du modèle:

a) Données de paires TX

CC3M de paires d'image texte , veuillez suivre cette instruction [ici]. Mettez ensuite les données sur [./data/t-x_pair_data/cc3m].
WebVid des paires de Text-Video , voir [Instruction]. Le fichier doit être enregistré sur [./data/t-x_pair_data/webvid].
AudioCap des paires de texte-audio , voir [l'instruction]. Enregistrez les données dans [./data/t-x_pair_data/audiocap].

B) Données d'instruction

T + XT
- LLaVA des données d'instructions visuelles , téléchargez-les à partir d'ici, puis mettez-les sur [./data/it_data/t+x-t_data/llava].
- Alpaca des données d'instruction textuelle , téléchargez-les à partir d'ici, puis mettez-les sur [./data/it_data/t+x-t_data/alpaca/].
- VideoChat , téléchargez les données d'instructions vidéo ici, puis mettez-les sur [./data/it_data/t+x-t_data/videochat/].
Remarque latérale: Après avoir téléchargé l'ensemble de données, veuillez exécuter prepare_data.py pour prétraiter l'ensemble de données.
T-X + T (T2M)
- Les ensembles de données d'instructions T-X+T (T2M) sont enregistrés sur [./data/it_data/t-t+x_data].
MOSIT
- Téléchargez le fichier à partir d'ici, mettez-les dans [./data/it_data/mosit_data/]. ( Nous sommes en train de finaliser les données et de gérer le problème du droit d'auteur. )

3.3. Pré-compression des intérêts [de retour en haut]

dans la formation d'alignement côté décodage, nous minimisons la distance entre la représentation des jetons et des légendes du signal. Pour économiser des coûts de temps et de mémoire, nous précompute les incorporations de texte pour les légendes de l'image, de l'audio et de la vidéo à l'aide de l'encodeur de texte dans les modèles de diffusion respectifs.

Veuillez exécuter cette commande avant la formation suivante de Next-GPT, où le fichier embedding produit sera enregistré sur [./data/embed].

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

Remarque des arguments:

args [1]: chemin du fichier de légende;
Args [2]: modalité, qui peut être image , video et audio ;
Args [3]: Sauvegarder le chemin du fichier d'intégration;
Args [4]: Nom du modèle de diffusion pré-formé correspondant.

3.4. Formation Next-GPT [Retour en haut]

Tout d'abord, veuillez vous référer au fichier de configuration de base [Training_Utils.py] pour le réglage du système de base des modules globaux et la configuration de l'ensemble de données NextGPT / DataSet / Catalog.py. L'ensemble de la formation Next-GPT implique 3 étapes:

Étape 1 : Alignement multimodal centré sur LLM côté LLM. Cette étape entraîne la couche de projection d'entrée tout en gelant la couche de projection de sortie ImageBind, LLM.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Étape 2 : Alignement de suivi des instructions côté décodage. Cette étape entraîne les couches de projection de sortie tout en gelant les couches de projection ImageBind, LLM, d'entrée.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Étape 3 : réglage des instructions. Cette étape d'instruction 1) la LLM via LORA, 2) la couche de projection d'entrée et 3) la couche de projection de sortie sur l'ensemble de données d'instructions.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4. Exécution du système Next-GPT [Retour en haut]

4.1. Préparer

d'abord les points de contrôle, en chargeant le système pré-formé Next-GPT.

Étape 1 : Chargez Frozen parameters . Veuillez vous référer au 3.1 Préparation du point de contrôle pré-formé.
Étape-2 : Chargez Tunable parameters . Veuillez mettre le système Next-GPT sur ./Checkpoints/NextGPT-V1.5-7B. Vous pouvez soit 1) utiliser les paramètres formés vous-même, ou 2) télécharger nos points de contrôle depuis HuggingFace.

4.2. Exécutez la prédiction

à la fin du chargement du point de contrôle, vous pouvez exécuter la prédiction via:

python predict.py

5. Fonctionner votre propre système [Retour en haut]

5.1. Ensemble de données

Vous pouvez définir votre propre ensemble de données, veuillez vous référer à la base_dataset.py, puis ajouter le catalog jeu de données dans catalog.py, y compris la target et parameters .

5.2.

Encodeur multimodal

Framework modèle

: vous pouvez tirer parti de votre propre encodeur multimodal dans le répertoire d'encodeur multimodal et ajouter du code correspondant dans builder.py.
Décodeur multimodal : vous pouvez ajouter votre propre décodeur multimodal, dans le répertoire de décodeur multimodal et modifier le code correspondant dans builder.py.
Projecteur : Vous pouvez concevoir votre propre projecteur d'entrée et de sortie dans le projecteur multimodal.

5.3. Affinement,

vous pouvez prédéfinir le modèle, les données et les paramètres de formation dans Training_Utils.py. Veuillez référer le Finetune.sh pour affiner votre propre modèle.

Contact

pour toute question ou commentaire, n'hésitez pas à contacter Shengqiong Wu et Hao Fei.

Citation

Si vous trouvez NextGpt utile dans vos recherches ou applications, veuillez citer:

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

Remerciements

Vous pouvez vous référer à des travaux connexes qui servent de fondements pour notre cadre et notre référentiel de code, Vicuna, ImageBind, STABLE Diffusion, Audioldm et Zeroscope. Nous nous inspirons également partiellement de Pandagpt,
Gill, codi, vidéo-llama, llava et minigpt-4. Merci pour leurs merveilleuses œuvres.

Licence Remarque

Ce référentiel est sous la licence BSD 3 clause. Next-GPT est un projet de recherche destiné à une utilisation non commerciale uniquement. Il ne faut pas utiliser le code de Next-GPT à des fins illégales, nuisibles, violentes, racistes ou sexuelles. On est strictement interdit de se livrer à toute activité qui violera potentiellement ces directives. Toute utilisation commerciale potentielle de ce code doit être approuvée par les auteurs.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-11
taille 97.83MB
Provenant de Github

Applications connexes

next saas starter

2024-11-06
LLaVA NeXT

2024-11-04
Concevez le prochain iPhone

2024-02-21
La dernière version du cinéma et de la télévision GPT

2023-10-30
Application Next Todo

2023-08-07
Xanadu Suivant

2022-08-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout