NExT GPT下载 - NExT GPT源代码下载

NExT GPT

其他源码

1.0.0

下载

Next-GPT：任何一对一的多模式LLM

Shengqiong Wu，Hao Fei*，Leigang Qu，Wei Ji和Tat-Seng Chua。（*一致）

ICML 2024，口头纸

新加坡国立大学计算学院的下一个++研究中心

该存储库托管了Next-GPT的代码，数据和模型权重，Next-GPT是第一个端到端的MM-LLM，它可以感知输入并以任意组合（任何对任何）文本，图像，视频和音频及其他方式生成输出。

指出：我们将以前的旧代码库包裹在下一-GPT范围内。请参阅此新代码库以获取所有培训和调整程序。

？消息

[2023.09.15]在版本7b_tiva_v0中发布Next-GPT的代码。
[2023.09.27] ??添加了模态混合批次采样器。
[2023.10.01] ??发布T2M指令数据集。
[2023.10.04] ??在版本7B_TIVA_V0中发布Next-GPT的检查点。
[2023.10.15]？更新版本7B_TIVA_V0中的Next-GPT。
[2024.10.07] ??发布数据和相应的构造方法，请参阅Data_readme.md，以获取更多详细信息。

托多

在更多类型和尺寸的LLMS中更新Next-GPT。
以更多的输入和输出方式授权下一个GPT。
...

示例演示

在这里，我们展示了Next-GPT生成的示例。有关更多示例，请访问网页或在线实时演示。

example_5_trim.mp4

example_6_trim.mp4

example_9_trim.mp4

简要介绍

Next-GPT建立在现有的预训练的LLM，多模式编码器和SOTA扩散模型之上，并具有足够的端到端指令调整。

录像带

多模式编码阶段。利用已建立的编码器以各种方式编码输入，其中这些表示形式通过投影层将这些表示形式投影到LLM可以理解的语言表示中。
LLM理解和推理阶段。利用现有的开源LLM作为处理输入信息的核心，以进行语义理解和推理。 LLM不仅直接生成文本令牌，还会产生独特的“模态信号”令牌，作为指令，以指示解码层是否相应地输出。
多模式生成阶段。接收来自LLM（如果有的话）的特定指令的多模式信号，则基于变压器的输出投影层将信号令牌表示映射到以下可理解的多模式解码器中。

有关更多技术细节，请参考该论文。

1。代码结构
2。环境准备
3.训练/适应您自己的
- 3.1。准备预训练的检查点
- 3.2。准备数据集
- 3.3。预算嵌入
- 3.4。训练Next-GPT
4。运行下一个GPT系统
- 4.1。准备检查点
- 4.2。部署演示系统
5。微调您自己的系统
- 5.1。数据集
- 5.2。模型框架
- 5.3。微调

1。代码结构

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2。环境准备[返回到顶部]

请首先克隆回购并安装所需的环境，这可以通过运行以下命令来完成：

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3。培训/适应您自己的

3.1。

根据以下出色的现有模型，

准备预训练的检查点[返回到顶部]下

一个GPT。

请按照说明准备检查点。

ImageBind是统一的图像/视频/音频编码器。可以从此处下载预先训练的检查点，其中版本huge 。之后，将imagebind_huge.pth文件放在[.pretrain_ckpt/imageBind]上。
Vicuna ：从[此处]准备验证的Vicuna。然后将预训练的模型放在[./pretrain_ckpt/vicuna-7b-v1.5/]上。
Image Diffusion用于生成图像。 Next-GPT使用v2版本的稳定扩散。（将自动下载）
用于生成音频内容的Audio Diffusion 。 Next-GPT使用l-full版本使用AudiOLDM。（将自动下载）
视频生成的Video Diffusion 。我们使用v2_576w版本的零镜。（将自动下载）

3.2。准备数据集[返回到顶部]，

请下载用于模型培训的以下数据集：

a）TX对数据

CC3M文本图像对，请遵循此说明[此处]。然后将数据放在[./data/t-x_pair_data/cc3m]中。
WebVid of Text-Video对，请参见[指令]。该文件应保存在[./data/t-x_pair_data/webvid]上。
文本AudioCap对的有影响力，请参见[指令]。将数据保存在[./data/t-x_pair_data/audiocap]中。

b）指令数据

t+x
- LLaVA的视觉说明数据，从这里下载，然后将其放在[./data/it_data/t+x+x-t+x-t_data/llava]中。
- 文本指令数据的Alpaca ，从这里下载，然后将其放在[./data/it_data/t+x-t+x-t_data/alpaca/]上。
- VideoChat ，在此处下载视频说明数据，然后将其放在[./data/it_data/t+x-t_data/videochat/]上。
旁注：下载数据集后，请运行prepare_data.py以预处理数据集。
T-X+T（T2M）
- T-X+T指令数据集（T2M）保存在[./data/it_data/t-t+x +x_Data]上。
MOSIT
- 从这里下载文件，将它们放入[./data/it_data/mosit_data/]中。（我们正在最终确定数据并处理版权问题。 ）

3.3。

在解码端对准训练中，

将嵌入[返回到顶部]

，我们最大程度地减少了信号令牌和标题表示之间的距离。为了节省时间和内存的成本，我们使用各自扩散模型中的文本编码器预先计算图像，音频和视频字幕的文本嵌入。

请在下一个GPT的以下培训之前运行此命令，其中生产的embedding文件将保存在[./data/embed]上。

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

参数注：

args [1]：字幕文件的路径；
Args [2]：模态，可以是image ， video和audio ；
args [3]：保存嵌入文件的路径；
ARGS [4]：相应的预训练扩散模型名称。

3.4。

首先，

训练Next-GPT [返回到顶部]

，请参阅基本配置文件[triending_utils.py]，以获取整体模块的基本系统设置，而Dataset Configuration NextGpt/DataSet/catalog.py.py。

整个Next-GPT训练涉及3个步骤：

步骤1 ：以LLM为中心的多模式对齐。该阶段在冷冻图像bind，llm，输出投影层时训练输入投影层。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
步骤2 ：解码侧指令遵循对齐。该阶段在冻结图像bind，llm，输入投影层的同时训练输出投影层。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
第3步：指令调整。此阶段指令调度1）通过LORA，2）输入投影层和3）指令数据集上的输出投影层。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4。运行下一个GPT系统[返回到顶部]

4.1。

首先

准备检查点

，加载预先训练的Next-GPT系统。

步骤1 ：加载Frozen parameters 。请参阅3.1准备预训练的检查点。
步骤2 ：加载Tunable parameters 。请在./checkpoints/nextgpt-v1.5-7b上放置下一个GPT系统。您可以1）使用经过训练的参数，或者2）从Huggingface下载我们的检查点。

4.2。

在完成检查点加载后

运行预测

，您可以通过

python predict.py

预测。

python predict.py

5。微调自己的系统[返回到顶部]

5.1。数据集

您可以定义自己的数据集，请参阅base_dataset.py，然后在Catalog.py中添加数据catalog ，包括target和parameters 。

5.2。模型框架

多模式编码器：您可以在多模式编码器目录中利用自己的多模式编码器，并在builder.py中添加相应的代码。
多模式解码器：您可以在多模式解码器目录中添加自己的多模式解码器，并在Builder.py中修改相应的代码。
投影仪：您可以在多模式投影仪中设计自己的输入和输出投影仪。

5.3。微调

您可以预先定义triagn_utils.py中的模型，数据和培训参数。请参阅Finetune.sh以进行微调。

有关

任何问题或反馈，请随时与Shengqiong Wu和Hao Fei联系。

引用

如果您发现Nextgpt在您的研究或应用程序中有用，请引用：

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

您可能会参考相关工作，这些

工作

是我们的框架和代码存储库，Vicuna，ImageBind，稳定扩散，AudiOldm和Zeroscope的基础。我们还从Pandagpt中部分汲取灵感，
Gill，Codi，Video-Lalama，Llava和Minigpt-4。感谢他们的精彩作品。

许可证通知

此存储库是根据BSD 3条款许可证的。 Next-GPT是一个仅用于非商业用途的研究项目。一个人不得将Next-GPT守则用于任何非法，有害，暴力，种族主义或性目的。严格禁止人们从事任何可能违反这些准则的活动。该代码的任何潜在商业用途均应得到作者的批准。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-11
大小 97.83MB
来自于 Github

NExT GPT