تنزيل NExT GPT - تنزيل رمز مصدر NExT GPT

NExT GPT

شفرة المصدر الأخرى

1.0.0

تنزيل

GPT التالي: من أي من LLM متعددة الوسائط

Shengqiong Wu ، Hao Fei*، Leigang qu ، Wei Ji ، و Tat-Seng Chua. (*مراسلة )

ICML 2024 ، ورقة عن طريق الفم

مركز أبحاث ++ ، كلية الحوسبة ، الجامعة الوطنية في سنغافورة

يستضيف هذا المستودع الرمز والبيانات ووزن النموذج لـ GPT التالي ، وهو أول MM-LLM من طرف إلى طرف يدرك الإدخال وينشئ الإخراج في مجموعات تعسفية (من أي من أي) من النص والصورة والفيديو والصوت وخارجها.

لاحظت : نلتف قاعدة الكود القديمة السابقة في Lagacy المقبل. يرجى الرجوع إلى قاعدة الكود الجديدة هذه لجميع إجراءات التدريب والضبط.

؟ أخبار

[2023.09.15] حرر رمز GPT التالي في الإصدار 7b_tiva_v0 .
[2023.09.27] ؟؟ تمت إضافة عينة دفعة مزروعة الطريقة.
[2023.10.01] ؟؟ حرر مجموعة بيانات التعليمات T2M.
[2023.10.04] ؟؟ حرر نقطة التفتيش من GPT التالي في الإصدار 7B_TIVA_V0.
[2023.10.15]؟ تحديث GPT التالي في الإصدار 7B_TIVA_V0.
[2024.10.07] ؟؟ حرر البيانات وأساليب البناء المقابلة ، يرجى الرجوع إلى data_readme.md لمزيد من التفاصيل.

تودو

تحديث GPT التالي في المزيد من أنواع وأحجام LLMS.
تمكين GPT التالي مع المزيد من طرائق المدخلات والمخرجات.
...

مثال العروض التوضيحية

هنا نعرض أمثلة تم إنشاؤها من GPT التالي. لمزيد من الأمثلة ، يرجى زيارة صفحة الويب ، أو العرض التجريبي المباشر عبر الإنترنت.

example_5_trim.mp4

example_6_trim.mp4

example_9_trim.mp4

مقدمة موجزة

تم تصميمها على قمة LLM التي تم تدريبها مسبقًا ، وموظف تشفير متعدد الوسائط ونماذج نشر SOTA ، مع ضبط تعليمات من طرف إلى طرف كافي.

فيديو لما

مرحلة الترميز متعددة الوسائط. الاستفادة من المشفرات المنشأة لتشفير المدخلات في طرائق مختلفة ، حيث يتم عرض هذه العروض في تمثيلات تشبه اللغة مفهومة إلى LLM من خلال طبقة الإسقاط.
LLM الفهم والمرحلة التفكير. تسخير LLM الموجود مفتوح المصدر باعتباره جوهر لمعالجة معلومات الإدخال من أجل الفهم الدلالي والتفكير. لا تقوم LLM بإنشاء الرموز النصية مباشرة فحسب ، بل تنتج أيضًا رموز "إشارة طريقة" فريدة تعمل بمثابة تعليمات لإملاء طبقات فك تشفير ما إذا كانت المحتوى الوسيط وإخراجها في المقابل.
مرحلة توليد متعددة الوسائط. استلام الإشارات متعددة الوسائط مع تعليمات محددة من LLM (إن وجدت) ، فإن طبقات إسقاط الإخراج المستندة إلى المحول خريطة تمثيلات رمز الإشارة إلى تلك التي يمكن فهمها لاتباع وحدة فك التشفير متعددة الوسائط.

لمزيد من التفاصيل الفنية ، يرجى الرجوع إلى الورقة.

بدء تشغيل

جدول المحتويات:

1. هيكل الكود
2. إعداد البيئة
3. التدريب/تكييف GPT التالي بمفردك
- . إعداد نقطة تفتيش تدريب قبل التدريب
- 3.2. إعداد مجموعة البيانات
- 3.3. التضمينات قبل الحاسوب
- 3.4. تدريب GPT
4. تشغيل نظام GPT التالي
- 4.1. إعداد نقاط التفتيش
- 4.2. نشر النظام التجريبي
5. صقل نظامك
- 5 5.1. مجموعة البيانات
- 5.2. إطار النموذج
- 5.3. الكون المثالى

1. بنية الكود

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2. إعداد البيئة [العودة إلى الأعلى]

يرجى أولاً استنساخ الريبو وتثبيت البيئة المطلوبة ، والتي يمكن القيام بها عن طريق تشغيل الأوامر التالية:

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3. التدريب/تكييف GPT التالي على مستوى

3.1. تحضير نقطة تفتيش تدريب مسبقًا [العودة إلى الأعلى]

يتم تدريب GPT التالي على أساس النماذج الموجودة الممتازة. يرجى اتباع التعليمات لإعداد نقاط التفتيش.

ImageBind هو تشفير الصورة/الفيديو/الصوت الموحد. يمكن تنزيل نقطة التفتيش التي تم تدريبها مسبقًا من هنا مع الإصدار huge . بعد ذلك ، ضع ملف imagebind_huge.pth على [.pretrain_ckpt/ImageBind].
Vicuna : إعداد Vicuna المسبق من [هنا]. ثم ضع النموذج الذي تم تدريبه مسبقًا على [./pretrain_ckpt/vicuna-7b-v1.5/].
يتم استخدام Image Diffusion لإنشاء الصور. يستخدم GPT التالي انتشار مستقر مع الإصدار v2 . ( سيتم تنزيله تلقائيًا )
Audio Diffusion لإنتاج محتوى صوتي. توظف GPT Next GPT Audioldm مع الإصدار l-full . ( سيتم تنزيله تلقائيًا )
Video Diffusion لتوليد الفيديو. نحن نستخدم Zeroscope مع الإصدار v2_576w . ( سيتم تنزيله تلقائيًا )

3.2. إعداد مجموعة البيانات [العودة إلى الأعلى]

يرجى تنزيل مجموعات البيانات التالية المستخدمة للتدريب على النموذج:

أ) بيانات TX بيانات

CC3M من أزواج صورة النص ، يرجى اتباع هذه التعليمات [هنا]. ثم ضع البيانات على [./data/t-x_pair_data/cc3m].
WebVid من أزواج النصوص النصية ، انظر [التعليمات]. يجب حفظ الملف على [./data/t-x_pair_data/webvid].
AudioCap من أزواج النص ، انظر [التعليمات]. احفظ البيانات في [./data/t-x_pair_data/audiocap].

ب) بيانات التعليمات

t+xt
- LLaVA من بيانات التعليمات المرئية ، وقم بتنزيلها من هنا ، ثم ضعها على [./data/it_data/t+x-t_data/llava].
- Alpaca من بيانات التعليمات النصية ، وقم بتنزيلها من هنا ، ثم وضعها على [./data/it_data/t+x-t_data/alpaca/].
- VideoChat ، قم بتنزيل بيانات تعليمات الفيديو هنا ، ثم ضعها على [./data/it_data/t+x-t_data/videochat/].
ملاحظة جانبية ： بعد تنزيل مجموعة البيانات ، يرجى تشغيل prepare_data.py للمعالجة المسبقة لمجموعة البيانات.
T-X+T (T2M)
- يتم حفظ مجموعات بيانات تعليمات T-X+T (T2M) على [./data/it_data/t-t+x_data].
MOST
- قم بتنزيل الملف من هنا ، ضعه في [./data/it_data/mosit_data/]. ( نحن بصدد الانتهاء من البيانات والتعامل مع مشكلة حقوق الطبع والنشر. )

3.3. التضمينات المسبقة [العودة إلى الأعلى]

في التدريب على محاذاة جانب فك التشفير ، نقدم إلى الحد الأدنى من المسافة بين تمثيل رموز الإشارة والتسميات التوضيحية. لتوفير تكاليف الوقت والذاكرة ، نقوم بتجهيزات النصوص النصية للصور والصوت والفيديو باستخدام مشفر النص ضمن نماذج الانتشار المعنية.

يرجى تشغيل هذا الأمر قبل التدريب التالي لـ GPT التالي ، حيث سيتم حفظ ملف embedding المنتجة على [./data/embed].

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

ملاحظة الوسيطات:

args [1]: Path of Caption File ؛
args [2]: الطريقة التي يمكن أن تكون image video audio ؛
args [3]: حفظ مسار التضمين ملف ؛
args [4]: اسم نموذج الانتشار المقابل قبل التدريب.

3.4. تدريب GPT التالي [العودة إلى الأعلى]

أولاً وقبل كل شيء ، يرجى الرجوع إلى ملف التكوين الأساسي [Training_utils.py] لإعداد النظام الأساسي للوحدات الإجمالية ، وتكوين مجموعة البيانات NextGPT/DataSet/Catalog.py. يتضمن التدريب بأكمله في GPT 3 خطوات:

الخطوة 1 : توصيل متعدد الوسائط المتمحور حول LLM. تدرب هذه المرحلة طبقة إسقاط الإدخال أثناء تجميد طبقة ImageBind ، LLM ، طبقة إسقاط الإخراج.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
الخطوة الثانية : محاذاة تتبع التعليمات في جانب فك التشفير. تدرب هذه المرحلة طبقات إسقاط الإخراج مع تجميد طبقات ImageBind و LLM.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
الخطوة 3 : ضبط التعليمات. هذه المرحلة تعليمية تون 1) LLM عبر Lora ، 2) طبقة إسقاط الإدخال و 3) طبقة إسقاط الإخراج في مجموعة بيانات التعليمات.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4. تشغيل نظام GPT التالي [العودة إلى الأعلى]

4.1. إعداد نقاط التفتيش

أولاً ، قم بتحميل نظام GPT التالي الذي تم تدريبه مسبقًا.

الخطوة 1 : تحميل Frozen parameters . يرجى الرجوع إلى 3.1 إعداد نقطة تفتيش تدريب مسبقًا.
الخطوة الثانية : تحميل Tunable parameters . يرجى وضع نظام GPT التالي على ./checkpoints/nextgpt-v1.5-7b. يمكنك إما 1) استخدام params المدربين أنفسكم ، أو 2) قم بتنزيل نقاط التفتيش الخاصة بنا من Luggingface.

4.2. قم بتشغيل التنبؤ

عند الانتهاء من تحميل نقطة التفتيش ، يمكنك تشغيل التنبؤ عبر:

python predict.py

5. صقل نظامك الخاص [العودة إلى الأعلى]

5.1. مجموعة البيانات

يمكنك تحديد مجموعة البيانات الخاصة بك ، يرجى الرجوع إلى base_dataset.py ، ثم إضافة catalog مجموعة البيانات في catalog.py ، بما في ذلك target parameters .

5.2.

تشفير

Modern Framework

متعدد الوسائط : يمكنك الاستفادة من التشفير متعدد الوسائط الخاص بك في دليل التشفير متعدد الوسائط ، وإضافة التعليمات البرمجية المقابلة في builder.py.
وحدة فك ترميز متعددة الوسائط : يمكنك إضافة وحدة فك ترميز متعددة الوسائط الخاصة بك ، في دليل فك الترميز متعدد الوسائط ، وتعديل الكود المقابل في builder.py.
جهاز العرض : يمكنك تصميم جهاز عرض الإدخال والإخراج الخاص بك في جهاز عرض متعدد الوسائط.

5.3. التكييف

يمكنك تعريف النموذج والبيانات والمعلمات مسبقًا في Training_Utils.py. يرجى إحالة finetune.sh لضبط النموذج الخاص بك.

اتصل

للحصول على أي أسئلة أو ملاحظات ، لا تتردد في الاتصال بـ Shengqiong Wu و Hao Fei.

الاقتباس

إذا وجدت NextGPT مفيدًا في بحثك أو تطبيقاتك ، يرجى التكرم في:

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

شكر وتقدير

يمكنك الرجوع إلى العمل ذي الصلة التي تعمل كمؤسسات لمستودع إطار العمل والرمز ، Vicuna ، ImageBind ، الانتشار المستقر ، Audioldm ، و Zeroscope. كما نرسم جزئيًا إلهامًا من Pandagpt ،
Gill ، Codi ، Video-Llama ، Llava ، and Minigpt-4. شكرا لأعمالهم الرائعة.

إشعارات الترخيص

هذا المستودع تحت رخصة BSD 3 لا يتجزأ. Next-GPT هو مشروع بحثي مخصص للاستخدام غير التجاري فقط. يجب على المرء ألا يستخدم مدونة GPT التالية لأي أغراض غير قانونية أو ضارة أو عنيفة أو عنصرية أو جنسية. يُحظر بشكل صارم على الانخراط في أي نشاط من شأنه أن ينتهك هذه الإرشادات. يجب الموافقة على أي استخدام تجاري محتمل لهذا الرمز من قبل المؤلفين.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-11
الحجم 97.83MB
من Github

تطبيقات ذات صلة

next saas starter

2024-11-06
LLaVA NeXT

2024-11-04
صمم هاتف iPhone التالي

2024-02-21
أحدث نسخة من GPT للسينما والتلفزيون

2023-10-30
التطبيق التالي تودو

2023-08-07
زانادو التالي

2022-08-18

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل