NExT GPTダウンロード - NExT GPTソースコードのダウンロード

NExT GPT

その他のソースコード

1.0.0

ダウンロード

Next-GPT：任意のマルチモーダルLLM

Shengqiong Wu、Hao Fei*、Leigang QU、Wei Ji、およびTat-Seng Chua。（*対応）

ICML 2024、オーラルペーパー

シンガポール国立大学コンピューティングスクール、次の++研究センター

このリポジトリは、入力を知覚し、テキスト、画像、ビデオ、およびオーディオなどの任意の組み合わせ（Any-to-a-to-and）で出力を生成する最初のエンドツーエンドMM-LLMであるNext - GPTのコード、データ、およびモデルの重みをホストします。

注意：以前の古いコードベースを次のGPTラガシーに包みます。すべてのトレーニングおよびチューニング手順については、この新しいコードベースを参照してください。

？ニュース

[2023.09.15]バージョン7b_tiva_v0で次のGPTのコードをリリースします。
[2023.09.27] ??モダリティブレンドバッチサンプラーを追加しました。
[2023.10.01] ?? T2M命令データセットをリリースします。
[2023.10.04] ??バージョン7B_TIVA_V0のNext-GPTのチェックポイントをリリースします。
[2023.10.15]？バージョン7b_tiva_v0の次のgptの更新。
[2024.10.07] ??データと対応する構造方法をリリースしてください。詳細については、data_readme.mdを参照してください。

トト

LLMのより多くのタイプとサイズでNext-GPTを更新します。
より多くのモダリティの入力と出力で次のGPTに力を与えます。
...

デモの例

ここでは、次のGPTから生成された例を紹介します。その他の例については、ウェブページまたはオンラインライブデモをご覧ください。

example_5_trim.mp4

Example_6_trim.mp4

example_9_trim.mp4

簡単な紹介

Next-GPTは、十分なエンドツーエンドの命令チューニングを備えた、既存の事前訓練を受けたLLM、マルチモーダルエンコーダー、SOTA拡散モデルの上に構築されています。

ビデオラマ

マルチモーダルエンコーディングステージ。確立されたエンコーダーを活用して、さまざまなモダリティで入力をエンコードします。これらの表現は、投影層を介してLLMに理解できる言語のような表現に投影されます。
LLMの理解と推論段階。セマンティック理解と推論のための入力情報を処理するコアとして既存のオープンソースLLMを活用します。 LLMは、テキストトークンを直接生成するだけでなく、デコードレイヤーを指示する指示として機能する一意の「モダリティ信号」トークンを生成します。
マルチモーダル生成段階。 LLMからの特定の命令（ある場合）でマルチモーダル信号を受信すると、トランスベースの出力投影層は、信号トークン表現をマルチモーダルデコーダのフォローに理解できるものにマッピングします。

詳細については、ペーパーをご覧ください。

開始する

1。コード構造
2。環境の準備
3。自分の
- 3.1
で次のGPTのトレーニング/適応
- 事前に訓練されたチェックポイント
- 3.2の準備。データセットの準備
- 3.3。埋め込みを事前に計算する
- 3.4。トレーニングNext-GPT4。NEXT
-GPTシステム
- 4.1の実行。チェックポイントの準備
- 4.2。デモシステムの展開
5。独自のシステムの微調整
- 5.1。データセット
- 5.2。モデルフレームワーク
- 5.3。微調整

1。コード構造

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2。環境の準備[上部に戻る]

最初にリポジトリをクローンして、必要な環境をインストールしてください。これは、次のコマンドを実行することで実行できます

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3。自分の

3.1で次のGPTのトレーニング/適応。事前に訓練されたチェックポイントの準備[トップに戻る]

Next-GPTは、優れた既存のモデルに基づいてトレーニングされています。チェックポイントを準備するために、指示に従ってください。

ImageBindは、統一された画像/ビデオ/オーディオエンコーダーです。事前に訓練されたチェックポイントは、ここからVersion hugeをダウンロードできます。その後、 imagebind_huge.pthファイルを[.pretrain_ckpt/imagebind]に配置します。
Vicuna ：先立ったVicunaを[ここ]から準備します。次に、事前に訓練されたモデルを[./pretrain_ckpt/vicuna-7b-v1.5/]に配置します。
Image Diffusion画像を生成するために使用されます。 Next-GPTは、バージョンv2で安定した拡散を使用します。（自動的にダウンロードされます）
オーディオコンテンツを生成するためのAudio Diffusion 。 Next-GPTは、バージョンl-fullでAudioldmを採用しています。（自動的にダウンロードされます）
ビデオ生成のVideo Diffusion 。バージョンv2_576wでゼロスコープを使用しています。（自動的にダウンロードされます）

3.2。データセットの準備[トップに戻る]

モデルトレーニングに使用される次のデータセットをダウンロードしてください：

a）Txペアデータ

CC3Mのテキストイメージペア、この指示に従ってください[こちら]。次に、[./data/t-x_pair_data/cc3m]にデータを配置します。
Text-VideoペアのWebVid 、[命令]を参照してください。ファイルは[./data/t-x_pair_data/webvid]に保存する必要があります。
Text-AudioペアのAudioCap 、[命令]を参照してください。 [./data/t-x_pair_data/audiocap]にデータを保存します。

b）

視覚命令データの命令データ
T+XT
- Llava LLaVAここからダウンロードしてから[./data/it_data/t+x-t_data/llava]に置きます。
- テキスト命令データのAlpaca 、ここからダウンロードしてから[./data/it_data/t+x-t_data/alpaca/]に置きます。
- VideoChat 、ここからビデオ命令データをダウンロードしてから[./data/it_data/t+x-t_data/videochat/]に置きます。
サイドノート：データセットをダウンロードした後、 prepare_data.pyを実行してデータセットを事前に処理してください。
T-X+T（T2M）
- T-X+T命令データセット（T2M）は[./data/it_data/t-t+x_data]で保存されます。
モジー
- ここからファイルをダウンロードし、[./data/it_data/mosit_data/]に入れます。（私たちはデータを最終的に確定し、著作権の問題を処理する過程にあります。 ）

3.3。

デコード側のアライメントトレーニングで

埋め込み[上に戻る]を事前に計算すると

、信号トークンの表現とキャプションの間の距離を最小限に抑えます。時間とメモリのコストを節約するために、それぞれの拡散モデル内のテキストエンコーダを使用して、画像、オーディオ、ビデオキャプションのテキスト埋め込みを事前に計算します。

次の次のトレーニングの前にこのコマンドを実行してください。ここで、生成されたembeddingファイルが[./data/embed]に保存されます。

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

引数のメモ：

args [1]：キャプションファイルのパス。
args [2]： image 、 video 、 audioなどのモダリティ。
args [3]：埋め込みファイルのパスを保存します。
args [4]：対応する事前に訓練された拡散モデル名。

3.4。 Training Next-GPT [Back to Top]

まず最初に、全体的なモジュールの基本システム設定については、ベース構成ファイル[Training_utils.py]を参照してください。次のGPTトレーニング全体には、3つのステップが含まれます。

ステップ1 ：エンコード側LLM中心のマルチモーダルアライメント。このステージは、ImageBind、LLM、出力投影層を凍結しながら、入力投影層を訓練します。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
ステップ2 ：デコード側の命令に従うアライメント。このステージは、ImageBind、LLM、入力投影層を凍結しながら、出力投影層をトレーニングします。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
ステップ3 ：命令チューニング。このステージ命令-Tune 1）LORAを介したLLM 、2）入力投影層、3）命令データセットの出力投影層。
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4.次のGPTシステムの実行[トップに戻る]

4.1。

最初に

チェックポイントを準備し

、事前に訓練されたNext-GPTシステムをロードします。

ステップ1 ： Frozen parametersをロードします。事前に訓練されたチェックポイントの準備3.1を参照してください。
ステップ2 ： Tunable parametersをロードします。 ./checkpoints/nextgpt-v1.5-7bに次のgptシステムを置いてください。 1）自分で訓練されたParamsを使用するか、2）Huggingfaceからチェックポイントをダウンロードできます。

4.2。

チェックポイントの読み込みが完了すると

予測を実行する

と、

python predict.py

経由で予測を実行できます。

python predict.py

5。独自のシステムを微調整します[上に戻る]

5.1。データセット

独自のデータセットを定義できます。Base_Dataset.pyを参照してから、 targetとparametersを含むCatalog.pyにデータセットcatalogを追加してください。

5.2。モデルフレームワーク

マルチモーダルエンコーダ：マルチモーダルエンコーダディレクトリで独自のマルチモーダルエンコーダーを活用し、Builder.pyに対応するコードを追加できます。
マルチモーダルデコーダー：マルチモーダルデコーダーディレクトリに独自のマルチモーダルデコーダーを追加し、Builder.pyの対応するコードを変更できます。
プロジェクター：マルチモーダルプロジェクターに独自の入力および出力プロジェクターを設計できます。

5.3。微調整

Training_utils.pyのモデル、データ、およびトレーニングパラメーターを事前に定義できます。独自のモデルを微調整するには、Finetune.shを参照してください。

ご質問やフィードバックについては、shengqiong wuとhao feiにお問い合わせください

。

引用

nextgptが研究やアプリケーションで役立つと思う場合は、親切に引用してください：

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

謝辞

Framework and Code Repository、Vicuna、ImageBind、Stable Diffusion、Audioldm、およびZeroscopeの基礎として機能する関連作業を参照することができます。また、Pandagptからインスピレーションを部分的に引き出します。
Gill、Codi、Video-llama、Llava、およびMinigpt-4。彼らの素晴らしい作品をありがとう。

ライセンス通知

このリポジトリは、BSD 3-Clauseライセンスの下にあります。 Next-GPTは、非営利目的のみを目的とした研究プロジェクトです。違法、有害、暴力、人種差別主義者、または性的目的には、次のGPTのコードを使用してはなりません。これらのガイドラインに違反する可能性のあるアクティビティに関与することは厳密に禁止されています。このコードの潜在的な商業的使用は、著者によって承認されるべきです。

拡大する

追加情報