ดาวน์โหลด NExT GPT - ดาวน์โหลดซอร์สโค้ด NExT GPT

NExT GPT

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Next-GPT: LLM แบบหลายรูปแบบใด ๆ

Shengqiong Wu, Hao Fei*, Leigang Qu, Wei Ji และ Tat-Seng Chua (*สารบรรณ)

ICML 2024 กระดาษปาก

ศูนย์วิจัยถัดไป ++, โรงเรียนคอมพิวเตอร์, มหาวิทยาลัยแห่งชาติสิงคโปร์

ที่เก็บนี้โฮสต์รหัสข้อมูลและน้ำหนักรุ่นของ GPT Next-GPT ซึ่งเป็น MM-LLM แบบ end-to-end แรกที่รับรู้อินพุตและสร้างเอาต์พุตในชุดค่าผสมโดยพลการ (ใด ๆ ) ของข้อความรูปภาพวิดีโอและเสียงและอื่น ๆ

ระบุไว้ : เราห่อ codebase เก่าในอดีตลงใน gpt-lagacy ถัดไป โปรดดู codebase ใหม่นี้สำหรับขั้นตอนการฝึกอบรมและการปรับแต่งทั้งหมด

- ข่าว

[2023.09.15] ปล่อยรหัสของ GPT Next-GPT ในเวอร์ชัน 7b_tiva_v0
[2023.09.27] ?? เพิ่มตัวอย่างแบทช์แบบผสมผสาน
[2023.10.01] ?? ปล่อยชุดข้อมูลคำสั่ง T2M
[2023.10.04] ?? ปล่อยจุดตรวจสอบของ GPT ถัดไปในเวอร์ชัน 7B_TIVA_V0
[2023.10.15]? อัปเดต Next-GPT ในเวอร์ชัน 7B_TIVA_V0
[2024.10.07] ?? ปล่อยข้อมูลและวิธีการก่อสร้างที่สอดคล้องกันโปรดอ้างอิง data_readme.md สำหรับรายละเอียดเพิ่มเติม

สิ่งที่ต้องทำ

อัปเดต GPT ถัดไปในประเภทและขนาดของ LLMS เพิ่มเติม
เพิ่มขีดความสามารถให้กับ GPT ต่อไปด้วยวิธีการของอินพุตและเอาต์พุตมากขึ้น
-

ตัวอย่างการสาธิต

ที่นี่เราแสดงตัวอย่างที่สร้างขึ้นจาก Next-GPT สำหรับตัวอย่างเพิ่มเติมโปรดไปที่หน้าเว็บหรือการสาธิตสดออนไลน์

example_5_trim.mp4

ตัวอย่าง _6_trim.mp4

ตัวอย่าง _9_trim.mp4

บทนำสั้น ๆ

Next-GPT ถูกสร้างขึ้นบน LLM ที่ผ่านการฝึกอบรมมาแล้วที่ผ่านการฝึกอบรมมาก่อน, ตัวเข้ารหัสแบบหลายรูปแบบและแบบจำลอง SOTA ที่มีการปรับแต่งการเรียนการสอนแบบ end-to-end เพียงพอ

วิดีโอ-llama

ขั้นตอนการเข้ารหัสหลายรูปแบบ การใช้ประโยชน์จากการเข้ารหัสที่จัดตั้งขึ้นเพื่อเข้ารหัสอินพุตในรังสีต่างๆซึ่งการเป็นตัวแทนเหล่านี้จะถูกฉายเป็นตัวแทนที่คล้ายกับภาษาที่เข้าใจได้กับ LLM ผ่านเลเยอร์การฉาย
LLM ความเข้าใจและขั้นตอนการใช้เหตุผล การควบคุม LLM แบบโอเพ่นซอร์สที่มีอยู่เป็นแกนหลักในการประมวลผลข้อมูลอินพุตเพื่อความเข้าใจและการใช้เหตุผลเชิงความหมาย LLM ไม่เพียง แต่สร้างโทเค็นข้อความโดยตรงเท่านั้น แต่ยังสร้างโทเค็น“ สัญญาณโมเดิร์น” ที่ไม่ซ้ำกันซึ่งทำหน้าที่เป็นคำแนะนำในการกำหนดเลเยอร์การถอดรหัสว่าเนื้อหาโมดอลจะส่งออกตามลำดับหรือไม่
ขั้นตอนการสร้างหลายรูปแบบ การรับสัญญาณหลายรูปแบบที่มีคำแนะนำเฉพาะจาก LLM (ถ้ามี) เลเยอร์ฉายภาพเอาต์พุตที่ใช้หม้อแปลงมาแมปการแสดงโทเค็นสัญญาณลงในสิ่งที่เข้าใจได้ในการติดตามตัวถอดรหัสหลายรูปแบบ

สำหรับรายละเอียดทางเทคนิคเพิ่มเติมโปรดอ้างถึงกระดาษ

การเริ่ม

ต้นสารบัญ:

1. โครงสร้างรหัส
2. การเตรียมสภาพแวดล้อม
3. การฝึกอบรม/การปรับ GPT ถัดไปด้วยตัวคุณเอง
- 3.1 การเตรียมจุดตรวจสอบที่ผ่านการฝึกอบรมมาก่อน
- 3.2 การเตรียมชุดข้อมูล
- 3.3 Precomputing Embeddings
- 3.4 การฝึกอบรม Next-GPT
4. การรันระบบ GPT Next-GPT
- 4.1 การเตรียมจุดตรวจ
- 4.2. การปรับใช้ระบบสาธิต
5. ปรับแต่งระบบของคุณเอง
- 5.1 ชุดข้อมูล
- 5.2 Model Framework
- 5.3 การปรับแต่ง

1. โครงสร้าง

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2. การเตรียมสภาพแวดล้อม [กลับไปด้านบน]

โปรดโคลน repo ก่อนและติดตั้งสภาพแวดล้อมที่ต้องการซึ่งสามารถทำได้โดยการเรียกใช้คำสั่งต่อไปนี้:

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3. การฝึกอบรม/ปรับ GPT ต่อไปด้วยตัวคุณเอง

3.1 การเตรียมจุดตรวจสอบที่ผ่านการฝึกอบรมมาก่อน [กลับไปด้านบน]

Next-GPT ได้รับการฝึกฝนตามรุ่นที่มีอยู่จริง โปรดทำตามคำแนะนำเพื่อเตรียมจุดตรวจ

ImageBind เป็นตัวเข้ารหัสภาพ/วิดีโอ/เสียงที่รวมเป็นแบบรวม จุดตรวจสอบที่ผ่านการฝึกอบรมมาก่อนสามารถดาวน์โหลดได้จากที่นี่ด้วยเวอร์ชัน huge หลังจากนั้นใส่ไฟล์ imagebind_huge.pth ที่ [.pretrain_ckpt/imageBind]
Vicuna : เตรียม Vicuna ที่ได้รับการฝึกฝนจาก [ที่นี่] จากนั้นใส่โมเดลที่ผ่านการฝึกอบรมมาก่อนที่ [./pretrain_ckpt/vicuna-7b-v1.5/]
Image Diffusion ใช้เพื่อสร้างภาพ Next-GPT ใช้การแพร่กระจายที่เสถียรด้วยเวอร์ชัน v2 ( จะดาวน์โหลดโดยอัตโนมัติ )
Audio Diffusion สำหรับการผลิตเนื้อหาเสียง Next-GPT ใช้ Audioldm ด้วยเวอร์ชัน l-full ( จะดาวน์โหลดโดยอัตโนมัติ )
Video Diffusion สำหรับการสร้างวิดีโอ เราใช้ Zeroscope กับเวอร์ชัน v2_576w ( จะดาวน์โหลดโดยอัตโนมัติ )

3.2 การเตรียมชุดข้อมูล [Back to Top]

โปรดดาวน์โหลดชุดข้อมูลต่อไปนี้ที่ใช้สำหรับการฝึกอบรมแบบจำลอง:

A) TX คู่ข้อมูล

CC3M ของคู่ ภาพข้อความ โปรดทำตามคำแนะนำนี้ [ที่นี่] จากนั้นใส่ข้อมูลที่ [./data/t-x_pair_data/cc3m]
WebVid ของคู่ วิดีโอวิดีโอ ดู [คำสั่ง] ควรบันทึกไฟล์ที่ [./data/t-x_pair_data/webvid]
AudioCap ของคู่ ข้อความ ดูดู [คำสั่ง] บันทึกข้อมูลใน [./data/t-x_pair_data/audiocap]

b) ข้อมูลคำสั่ง

T+XT
- LLaVA ของ ข้อมูลคำสั่งภาพ ดาวน์โหลดจากที่นี่แล้วใส่ไว้ที่ [./data/IT_DATA/T+x-t_data/llava]
- Alpaca ของ ข้อมูลคำสั่งที่เป็นข้อความ ดาวน์โหลดจากที่นี่แล้ววางไว้ที่ [./data/it_data/t+x-t_data/alpaca/]
- VideoChat , ดาวน์โหลด ข้อมูลคำสั่งวิดีโอ ที่นี่จากนั้นวางไว้ที่ [./data/it_data/t+x-t_data/videochat/]
หมายเหตุด้านข้าง： หลังจากดาวน์โหลดชุดข้อมูลโปรดเรียกใช้ prepare_data.py เพื่อประมวลผลชุดข้อมูลล่วงหน้า
T-X+T (T2M)
- ชุดข้อมูลคำสั่ง T-X+T (T2M) จะถูกบันทึกที่ [./data/IT_DATA/T-T+X_DATA]
- ดาวน์โหลดไฟล์จากที่นี่ใส่ไว้ใน [./data/it_data/mosit_data/
]
- ( เราอยู่ในขั้นตอนการสรุปข้อมูลและจัดการปัญหาลิขสิทธิ์ )

3.3. การฝังตัวแบบ premputing [กลับไปด้านบน]

ในการฝึกอบรมการจัดตำแหน่งด้านการถอดรหัสเราลดระยะห่างระหว่างการเป็นตัวแทนของโทเค็นสัญญาณและคำอธิบายภาพ เพื่อประหยัดค่าใช้จ่ายของเวลาและหน่วยความจำเราได้ทำการคำนวณข้อความที่ฝังอยู่สำหรับภาพคำบรรยายภาพเสียงและวิดีโอโดยใช้ตัวเข้ารหัสข้อความภายในโมเดลการแพร่กระจายที่เกี่ยวข้อง

โปรดเรียกใช้คำสั่งนี้ก่อนการฝึกอบรมต่อไปนี้ของ GPT ต่อไปนี้ซึ่งไฟล์ embedding ที่ผลิตจะถูกบันทึกที่ [./data/Embed]

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

หมายเหตุของอาร์กิวเมนต์:

args [1]: เส้นทางของไฟล์คำบรรยายภาพ;
args [2]: modality ซึ่งสามารถเป็น image video และ audio ;
args [3]: การบันทึกเส้นทางของไฟล์ฝัง;
args [4]: ชื่อโมเดลการแพร่กระจายที่ได้รับการฝึกอบรมก่อน

3.4. การฝึกอบรม Next-GPT [Back to Top]

ก่อนอื่นโปรดดูไฟล์การกำหนดค่าพื้นฐาน [Training_utils.py] สำหรับการตั้งค่าระบบพื้นฐานของโมดูลโดยรวมและการกำหนดค่าชุดข้อมูล NextGPT/DataSet/Catalog.py การฝึกอบรม GPT แบบต่อไปทั้งหมดเกี่ยวข้องกับ 3 ขั้นตอน:

ขั้นตอนที่ 1 : การจัดตำแหน่งหลายรูปแบบ LLM-centric-centric ขั้นตอนนี้ฝึกอบรม เลเยอร์การฉายอินพุต ในขณะที่แช่แข็ง ImageBind, LLM, เลเยอร์ฉายภาพเอาต์พุต
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
ขั้นตอนที่ 2 : การจัดตำแหน่งคำสั่งตามการถอดรหัส ขั้นตอนนี้จะฝึก เลเยอร์ฉายภาพเอาต์พุต ในขณะที่แช่แข็ง ImageBind, LLM, เลเยอร์การฉายภาพอินพุต
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
ขั้นตอนที่ 3 : การปรับแต่งคำสั่ง การปรับแต่งขั้นตอนนี้ 1) LLM ผ่าน LORA, 2) เลเยอร์การฉายภาพอินพุต และ 3) เลเยอร์ฉายภาพเอาต์พุต บนชุดข้อมูลคำสั่ง
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4. การเรียกใช้ระบบ GPT Next-GPT [กลับไปด้านบน]

4.1 การเตรียมจุดตรวจ

ก่อนการโหลดระบบ GPT ถัดไปที่ผ่านการฝึกอบรมมาก่อน

ขั้นตอนที่ 1 : โหลด Frozen parameters โปรดดู 3.1 การเตรียมจุดตรวจสอบที่ผ่านการฝึกอบรมมาก่อน
ขั้นตอนที่ 2 : โหลด Tunable parameters กรุณาใส่ระบบ GPT ถัดไปที่./checkpoints/nextgpt-v1.5-7b คุณสามารถใช้ 1) ใช้พารามิเตอร์ที่ผ่านการฝึกฝนด้วยตนเองหรือ 2) ดาวน์โหลดจุดตรวจของเราจาก HuggingFace

4.2. เรียกใช้การทำนาย

เมื่อเสร็จสิ้น

python predict.py

โหลดจุดตรวจ

python predict.py

5. ปรับแต่งระบบของคุณเอง [กลับไปด้านบน]

5.1 ชุดข้อมูล

คุณสามารถกำหนดชุดข้อมูลของคุณเองโปรดดูที่ base_dataset.py จากนั้นเพิ่ม catalog ข้อมูลใน catalog.py รวมถึง target และ parameters

5.2. Model Framework

encoder Multimodal : คุณสามารถใช้ประโยชน์จากตัวเข้ารหัสหลายรูปแบบของคุณเองในไดเรกทอรีตัวเข้ารหัสแบบหลายรูปแบบและเพิ่มรหัสที่เกี่ยวข้องใน builder.py
ตัวถอดรหัส Multimodal : คุณสามารถเพิ่มตัวถอดรหัสหลายรูปแบบของคุณเองในไดเรกทอรีตัวถอดรหัสแบบหลายรูปแบบและแก้ไขรหัสที่เกี่ยวข้องใน builder.py
โปรเจ็กเตอร์ : คุณสามารถออกแบบโปรเจ็กเตอร์อินพุตและเอาต์พุตของคุณเองในโปรเจ็กเตอร์หลายรูปแบบ

5.3. การปรับแต่ง

คุณสามารถกำหนดรูปแบบข้อมูลและพารามิเตอร์การฝึกอบรมไว้ล่วงหน้าในการฝึกอบรม _utils.py โปรดดู finetune.sh สำหรับการปรับแต่งโมเดลของคุณเอง

ติดต่อ

สำหรับคำถามหรือข้อเสนอแนะใด ๆ อย่าลังเลที่จะติดต่อ Shengqiong Wu และ Hao Fei

การอ้างอิง

หากคุณพบว่า NextGPT มีประโยชน์ในการวิจัยหรือแอปพลิเคชันของคุณโปรดกรุณาอ้างอิง:

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

กิตติกรรมประกาศ

คุณอาจอ้างถึงงานที่เกี่ยวข้องที่ทำหน้าที่เป็นรากฐานสำหรับกรอบและที่เก็บรหัสของเรา Vicuna, ImageBind, การแพร่กระจายที่มั่นคง, Audioldm และ Zeroscope นอกจากนี้เรายังได้รับแรงบันดาลใจจาก Pandagpt บางส่วน
Gill, Codi, Video-llama, Llava และ Minigpt-4 ขอบคุณสำหรับผลงานที่ยอดเยี่ยมของพวกเขา

ใบอนุญาตประกาศ

ที่เก็บนี้อยู่ภายใต้ใบอนุญาต BSD 3 ข้อ Next-GPT เป็นโครงการวิจัยที่มีไว้สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์เท่านั้น เราจะต้องไม่ใช้รหัสของ GPT ถัดไปสำหรับวัตถุประสงค์ที่ผิดกฎหมายอันตรายรุนแรงเหยียดผิวหรือมีวัตถุประสงค์ทางเพศ หนึ่งถูกห้ามอย่างเคร่งครัดจากการมีส่วนร่วมในกิจกรรมใด ๆ ที่อาจละเมิดแนวทางเหล่านี้ การใช้รหัสนี้ที่อาจเกิดขึ้นจากรหัสนี้ควรได้รับการอนุมัติจากผู้เขียน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-11
ขนาด 97.83MB
มาจาก Github

แอปที่เกี่ยวข้อง

next saas starter

2024-11-06
LLaVA NeXT

2024-11-04
ออกแบบ iPhone ถัดไป

2024-02-21
ภาพยนตร์และโทรทัศน์ GPT เวอร์ชันล่าสุด

2023-10-30
แอปสิ่งที่ต้องทำถัดไป

2023-08-07
ซานาดู ต่อไป

2022-08-18

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด