NExT GPT - NExT GPT

NExT GPT

Другой исходный код

1.0.0

Скачать

Next-GPT: Any-To-MultiModal LLM

Shengqiong Wu, Hao Fei*, Leigang Qu, Wei Ji и Tat-Seng Chua. (*Переписка)

ICML 2024, пероральная бумага

Следующий исследовательский центр ++, Школа вычислительной техники, Национальный университет Сингапура

Этот репозиторий проводит код, данные и вес модели Next-GPT , первую сквозную MM-LLM, который воспринимает ввод и генерирует вывод в произвольных комбинациях (любой-любой) текста, изображения, видео и звука и за его пределами.

Отметом : мы завершаем бывшую старую кодовую базу в следующую-GPT-Lagacy. Пожалуйста, обратитесь к этой новой кодовой базе для всех процедур обучения и настройки.

? Новости

[2023.09.15] Выпустите код следующего GPT в версии 7b_tiva_v0 .
[2023.09.27] ?? Добавлен модально-смешанный пакетный пробоотборник.
[2023.10.01] ?? Отпустите набор данных инструкций T2M.
[2023.10.04] ?? Отпустите контрольную точку следующего GPT в версии 7B_TIVA_V0.
[2023.10.15]? Обновление следующего GPT в версии 7B_TIVA_V0.
[2024.10.07] ?? Отпустите данные и соответствующие методы строительства, обратитесь к DATA_README.MD для получения более подробной информации.

Тодо

Обновление следующего GPT в большем количестве типов и размеров LLMS.
Расширение возможностей следующего GPT с большими методами входов и выходов.
...

Пример демо

Здесь мы демонстрируем примеры, сгенерированные из следующего GPT. Для получения дополнительных примеров, пожалуйста, посетите веб -страницу или онлайн -демонстрацию.

Пример_5_trim.mp4

Пример_6_trim.mp4

Пример_9_trim.mp4

Краткое введение

Next-GPT построено поверх существующих предварительно обученных LLM, мультимодального энкодера и диффузионных моделей SOTA, с достаточной настройкой инструкций.

Видео-лама

Мультимодальная стадия кодирования. Используя установленные кодеры для кодирования входов в различных методах, где эти представления проецируются в языковые представления, понятные для LLM через проекционный слой.
LLM Понимание и стадия рассуждения. Использование существующего LLM с открытым исходным кодом в качестве ядра для обработки входной информации для семантического понимания и рассуждения. LLM не только напрямую генерирует токены текста, но и создает уникальные токены «сигнала модальности», которые служат инструкциями для определения слоев декодирования, независимо от того, и какой модальный контент для вывода соответственно.
Мультимодальная стадия генерации. Принимая мультимодальные сигналы с конкретными инструкциями от LLM (если таковые имеются), слои вывода на основе трансформатора отображают представления сигнальных токенов в те, которые понятны для следующих мультимодальных декодеров.

Для получения дополнительных технических деталей, пожалуйста, обратитесь к статье.

Начало работы

Соблюдение:

1. Структура кода
2. Подготовка среды
- . Подготовка предварительно обученной контрольной точки
- 3.2. Подготовка набора данных
- 3.3. Предварительное обязательство внедрения
- 3.4. Обучение следующей GPT
4. Запуск следующей GPT System
- 4.1. Подготовка контрольных точек
- 4.2. Развертывание демонстрационной системы
5. Точная настройка вашей собственной системы
- 5.1. Набор данных
- 5.2. Модельная структура
- 5.3. Тонкая настройка

1. Структура кода

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2. Подготовка среды [обратно вверх]

Пожалуйста, сначала клонируйте репо и установите требуемую среду, которая может быть выполнена, выполнив следующие команды:

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3. Обучение/адаптация следующего GPT на своем собственном

3.1. Подготовка предварительно обученной контрольной точки [Back To Top]

Next-GPT обучается на основе следующих отличных существующих моделей. Пожалуйста, следуйте инструкциям, чтобы подготовить контрольные точки.

ImageBind - это Unified Image/Video/Audio Encoder. Предварительно обученная контрольная точка может быть загружена отсюда с версией huge . После этого поместите файл imagebind_huge.pth на [.pretrain_ckpt/imagebind].
Vicuna : Подготовьте предварительную викуну от [здесь]. Затем поместите предварительно обученную модель на [./pretrain_ckpt/vicuna-7b-v1.5/].
Image Diffusion используется для генерации изображений. Next-GPT использует стабильную диффузию с версией v2 . ( будет автоматически загружен )
Audio Diffusion для производства аудиоконтента. Next GPT использует Audioldm с версией l-full . ( будет автоматически загружен )
Video Diffusion для генерации видео. Мы используем Zeroscope с версией v2_576w . ( будет автоматически загружен )

3.2. Подготовка набора данных [Back to Top]

Пожалуйста, загрузите следующие наборы данных, используемые для обучения модели:

a) Пары TX данных

CC3M из пар текстовых изображений , пожалуйста, следуйте этой инструкции [здесь]. Затем поместите данные на [./data/t-x_pair_data/cc3m].
WebVid из пар текстовых видео , см. [Инструкция]. Файл должен быть сохранен по адресу [./data/t-x_pair_data/webvid].
AudioCap из пар текста-авторский , см. [Инструкция]. Сохраните данные в [./data/t-x_pair_data/audiocap].

Б) Данные инструкции

T+XT
- LLaVA данных о визуальных инструкциях , загрузите их отсюда, а затем поместите на [./data/it_data/t+x-t_data/llava].
- Alpaca данных текстовых инструкций , загрузите их отсюда, а затем поместите по адресу [./data/it_data/t+x-t_data/alpaca/].
- VideoChat , загрузите данные видео инструкции здесь, а затем поместите их по адресу [./data/it_data/t+x-t_data/videochat/].
Примечание: После загрузки набора данных, пожалуйста, запустите prepare_data.py , чтобы предварительно обработать набор данных.
T-X+T (T2M)
- Наборы данных T-X+T (T2M) сохраняются при [./data/it_data/t-t+x_data].
MOSIT
- скачать файл отсюда, поместите их в [./data/it_data/mosit_data/]. ( Мы находимся в процессе завершения данных и обработки проблемы с авторским правом. )

3.3. Предварительное обязательство встраиваемых внедрений [назад к вершине]

в тренировке выравнивания на стороне декодирования мы минимизируем расстояние между представлением сигнальных токенов и подписей. Чтобы сэкономить затраты на время и память, мы предварительно выпускаем текстовые встраиваемые встроения по подпивкам изображения, аудио и видео, используя текстовый энкодер в соответствующих моделях диффузии.

Пожалуйста, запустите эту команду перед следующей подготовкой следующего GPT, где производимый файл embedding будет сохранен в [./data/embed].

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

Примечание аргументов:

args [1]: Путь файла подписки;
Args [2]: Модальность, которая может быть image , video и audio ;
Args [3]: путь сохранения файла встраивания;
Args [4]: соответствующее предварительно обученное имя диффузионной модели.

3.4. Обучение следующего GPT [Back to Top]

Во-первых, пожалуйста, обратитесь к файлу базовой конфигурации [Training_Utils.py] для базовой системы системы общих модулей и конфигурации набора данных NextGPT/DataSet/catalog.py. Вся тренировка следующего GPT включает в себя 3 шага:

Step-1 : кодировка LLM-ориентированная мультимодальная выравнивание. На этом этапе тренируется входной проекционный слой, замораживая слой изображения, LLM, выводный проекционный слой.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Шаг-2 : декодирующее выравнивание на стороне. На этом этапе тренируется выходные проекционные слои , замораживая слои изображения, LLM, входные проекционные слои.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Шаг-3 : настройка инструкции. На этой стадии инструкция 1) LLM через LORA, 2) Проекционное слой ввода и 3) Выходной проекционный слой в наборе данных инструкции.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4. Запуск следующей системы GPT [назад к вершине]

4.1. Подготовка контрольных точек

сначала, загружая предварительно обученную систему следующей GPT.

Шаг-1 : нагрузка Frozen parameters . Пожалуйста, обратитесь к 3.1 Подготовка предварительно обученной контрольной точки.
Шаг-2 : Загрузите Tunable parameters . Пожалуйста, поместите следующую систему GPT по адресу ./checkpoints/nextgpt-v1.5-7b. Вы можете либо 1) использовать параметры, обученные самим собой, либо 2) загрузить наши контрольные точки с Huggingface.

4.2. Запустите прогноз

после завершения загрузки контрольной точки, вы можете запустить прогноз через:

python predict.py

5. Тонкая настройка собственной системы [назад к вершине]

5.1. Набор данных

Вы можете parameters свой собственный набор target , пожалуйста, см catalog

5.2. Model Framework

MultiModal Encoder : вы можете использовать свой собственный мультимодальный энкодер в каталоге мультимодального энкодера и добавить соответствующий код в Builder.py.
Мультимодальный декодер : вы можете добавить свой собственный мультимодальный декодер, в каталог мультимодального декодера и изменить соответствующий код в Builder.py.
Проектор : Вы можете разработать свой собственный входной и выходной проектор в мультимодальном проекторе.

5.3. Точная настройка

Вы можете предварительно определять параметры модели, данных и обучения в Training_utils.py. Пожалуйста, обратитесь к Finetune.sh для точной настройки собственной модели.

Свяжитесь

за любыми вопросами или обратной связью, не стесняйтесь обращаться в Shengqiong Wu и Hao Fei.

Цитата,

если вы найдете NextGPT полезным в своих исследованиях или приложениях, пожалуйста, цитируйте:

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

Благодарности

Вы можете ссылаться на соответствующую работу, которая служит основой для нашей структуры и репозитория кода, Vicuna, ImageBind, стабильной диффузии, Audioldm и Zeroscope. Мы также частично черпаем вдохновение в Pandagpt,
Джилл, Коди, Видео-Лама, Ллава и Минигпт-4. Спасибо за их замечательные работы.

Уведомления о лицензии.

Этот репозиторий находится под лицензией BSD 3-rack. Next GPT-это исследовательский проект, предназначенный только для некоммерческого использования. Нельзя использовать кодекс следующего GPT для любых незаконных, вредных, насильственных, расистских или сексуальных целей. Одно из них строго запрещено участвовать в любой деятельности, которая потенциально нарушает эти руководящие принципы. Любое потенциальное коммерческое использование этого кода должно быть одобрено авторами.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-03-11
размер 97.83MB
От Github

Связанные приложения

next saas starter

2024-11-06
LLaVA NeXT

2024-11-04
Создайте следующий iPhone

2024-02-21
Последняя версия GPT для кино и телевидения

2023-10-30
Приложение NextT Todo

2023-08-07
Занаду Далее

2022-08-18