NExT GPT - NExT GPT

NExT GPT

Otro código fuente

1.0.0

Descargar

Next-GPT: LLM multimodal de cualquiera

Shengqiong Wu, Hao Fei*, Leigang Qu, Wei Ji y Tat-Seng Chua. (*Correspondencia)

ICML 2024, papel oral

Next ++ Centro de investigación, Escuela de Computación, Universidad Nacional de Singapur

Este repositorio aloja el código, los datos y el peso del modelo de Next-GPT , el primer MM-LLM de extremo a extremo que percibe la entrada y genera salida en combinaciones arbitrarias (de cualquier manera) de texto, imagen, video y audio y más allá.

Notado : envolvemos la antigua base de código antigua en la siguiente-lagacy de GPT. Consulte esta nueva base de código para todos los procedimientos de capacitación y ajuste.

? Noticias

[2023.09.15] Libera el código de Next-GPT en la versión 7b_tiva_v0 .
[2023.09.27] ?? Se agregó una muestra de lotes mezclado con modalidad.
[2023.10.01] ?? Libere el conjunto de datos de instrucciones T2M.
[2023.10.04] ?? Libere el punto de control de Next-GPT en la versión 7b_tiva_v0.
[2023.10.15]? Actualización de Next-GPT en la versión 7b_tiva_v0.
[2024.10.07] ?? Libere los datos y los métodos de construcción correspondientes, consulte data_readme.md para obtener más detalles.

HACER

Actualización de Next-GPT en más tipos y tamaños de LLM.
Empoderar el próximo GPT con más modalidades de entradas y salidas.
...

Ejemplo de demostraciones

Aquí mostramos ejemplos generados a partir de Next-GPT. Para obtener más ejemplos, visite la página web o la demostración en vivo en línea.

Ejemplo_5_trim.mp4

Ejemplo_6_trim.mp4

Ejemplo_9_trim.mp4

Breve Introducción

Next-GPT se construye sobre LLM previamente capacitada existente, codificador multimodal y modelos de difusión SOTA, con suficiente ajuste de instrucciones de extremo a extremo.

Video-Llama

Etapa de codificación multimodal. Aprovechando los codificadores establecidos para codificar entradas en diversas modalidades, donde estas representaciones se proyectan en representaciones similares al lenguaje comprensibles para el LLM a través de una capa de proyección.
LLM Etapa de comprensión y razonamiento. Aprovechar una LLM de código abierto existente como el núcleo para procesar la información de entrada para la comprensión y el razonamiento semántico. El LLM no solo genera directamente tokens de texto, sino que también produce tokens únicos de "señal de modalidad" que sirven como instrucciones para dictar las capas de decodificación, ya sea y qué contenido modal para emitir correspondientemente.
Etapa de generación multimodal. Al recibir las señales multimodales con instrucciones específicas de LLM (si las hay), las capas de proyección de salida basadas en el transformador asignan las representaciones de token de señal en las que son comprensibles para seguir a los decodificadores multimodales.

Para obtener más detalles técnicos, consulte el documento.

Tabla de contenido

inicial

:

1. Estructura del código
2. Preparación del entorno
3. Entrenamiento/adaptación de Next-GPT en su propia
- 3.1. Preparación del punto de control previamente capacitado
- 3.2. Preparación del conjunto de datos
- 3.3. Precomputación de incrustaciones
- 3.4. Entrenamiento Next-GPT
4. Ejecutando el sistema Next-GPT
- 4.1. Preparación de puntos de control
- 4.2. Implementación del sistema de demostración
5. Autorando su propio sistema
- 5.1. Conjunto de datos
- 5.2. Marco de modelo
- 5.3. Sintonia FINA

1. Estructura de código

. |-- NExT-GPT-Lagacy # the previous version of the model |-- assets |-- checkpoints # save the pretraining and tuning checkpoints |-- data | |-- IT_data | | |-- MosIT_data | | |-- T+X-T_data # text+[image/audio/video] to text instruction data | | `-- T-T+X_data # synthesized text to text+[image/audio/video] instruction data | |-- T_X_pair_data # text-autio pairs data | | |-- audiocap | | |-- cc3m | | `-- webvid | |-- embed | `-- prepare_data.py |-- figures |-- merge_lora_weights.py |-- nextgpt | |-- __init__.py | |-- constants.py | |-- conversation.py | |-- dataset | | |-- __init__.py | | |-- audio_processor.py | | |-- base_dataset.py | | |-- catalog.py | | |-- concat_dataset.py | | |-- dataset_utils.py | | `-- sampler.py | |-- mm_utils.py | |-- model | | |-- __init__.py | | |-- apply_delta.py | | |-- builder.py | | |-- consolidate.py | | |-- language_model | | |-- make_delta.py | | |-- multimodal_decoder | | |-- multimodal_encoder | | |-- multimodal_projector | | |-- nextgpt_arch.py | | `-- utils.py | `-- utils.py |-- scripts | |-- finetune.sh | |-- pretrain_dec.sh | |-- pretrain_enc.sh | |-- zero2.json | |-- zero3.json | `-- zero3_offload.json |-- LICENSE.md |-- README.md |-- nextgpt_trainer.py |-- predict.py |-- preprocess_embeddings.py |-- requirements.txt |-- train.py |-- train_mem.py `-- training_utils.py

2. Preparación del entorno [Volver a arriba]

Primero clone el repositorio e instale el entorno requerido, que se puede hacer ejecutando los siguientes comandos:

conda env create -n nextgpt python=3.8 conda activate nextgpt # CUDA 12.1 conda install pytorch==2.1.2 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia git clone https://github.com/NExT-GPT/NExT-GPT.git cd NExT-GPT pip install -r requirements.txt

3. Entrenamiento/adaptación de Next-GPT por su propia

3.1. La preparación de los puntos de control previamente capacitados [Volver a arriba]

el próximo GPT está entrenado en función de los siguientes modelos existentes. Siga las instrucciones para preparar los puntos de control.

ImageBind es el codificador de imagen/video/audio unificado. El punto de control previamente entrenado se puede descargar desde aquí con la versión huge . Posteriormente, coloque el archivo imagebind_huge.pth en [.Pretrain_CKPT/ImageBind].
Vicuna : Prepare la vicuna previa a la aparición de [aquí]. Luego coloque el modelo previamente entrenado en [./pretrain_ckpt/vicuna-7b-v1.5/].
Image Diffusion se usa para generar imágenes. Next-GPT usa difusión estable con la versión v2 . ( se descargará automáticamente )
Audio Diffusion para producir contenido de audio. Next-GPT emplea Audioldm con la versión l-full . ( se descargará automáticamente )
Video Diffusion para la generación de videos. Empleamos Zeroscope con la versión v2_576w . ( se descargará automáticamente )

3.2. Preparación del conjunto de datos [Volver a arriba]

Descargue los siguientes conjuntos de datos utilizados para la capacitación del modelo:

a) TX Pares Datos

CC3M de pares de imágenes de texto , siga esta instrucción [aquí]. Luego coloque los datos en [./data/t-x_pair_data/cc3m].
WebVid of Text-Video , consulte la [Instrucción]. El archivo debe guardar en [./data/t-x_pair_data/webvid].
AudioCap de los pares de texto de texto , consulte la [instrucción]. Guarde los datos en [./data/t-x_pair_data/audiocap].

B) Datos de instrucciones

T+XT
- LLaVA de los datos de instrucciones visuales , descargarlos desde aquí y luego ponerlo en [./data/it_data/t+x-t_data/llava].
- Alpaca de los datos de instrucciones textuales , descárguelo desde aquí y luego póngalo en [./data/it_data/t+x-t_data/alpaca/].
- VideoChat , descargue los datos de instrucciones de video aquí y luego póngalos en [./data/it_data/t+x-t_data/videochat/].
Nota al margen: Después de descargar el conjunto de datos, ejecute prepare_data.py para preprocesar el conjunto de datos.
T-X+T (T2M)
- Los conjuntos de datos de instrucciones T-X+T (T2M) se guardan en [./data/IT_DATA/T-T-T+X_DATA].
Mosit
- Descargue el archivo desde aquí, póngalos en [./data/it_data/moit_data/]. ( Estamos en el proceso de finalizar los datos y manejar el problema de los derechos de autor).

3.3. Precomputación de incrustaciones [Volver a arriba]

en el entrenamiento de alineación del lado de la decodificación, minimizamos la distancia entre la representación de tokens y subtítulos de señal. Para ahorrar costos de tiempo y memoria, precomputamos los incrustaciones de texto para subtítulos de imagen, audio y video utilizando el codificador de texto dentro de los modelos de difusión respectivos.

Ejecute este comando antes de la siguiente capacitación de Next-GPT, donde el archivo embedding producido se guardará en [./data/embed].

cd ./code/ python preprocess_embeddings.py ../data/T-X_pair_data/cc3m/cc3m_generation.json image ../data/embed/ stabilityai/stable-diffusion-2

Nota de argumentos:

Args [1]: ruta del archivo de subtítulos;
Args [2]: modalidad, que puede ser image , video y audio ;
Args [3]: Guardar ruta del archivo de incrustación;
Args [4]: nombre del modelo de difusión previamente capacitado correspondiente.

3.4. Entrenamiento de Next-GPT [Volver a arriba]

En primer lugar, consulte el archivo de configuración base [Training_utils.py] para la configuración básica del sistema de los módulos generales y la configuración del conjunto de datos NextGPT/DataSet/Catalog.py. Todo el entrenamiento de Next GPT implica 3 pasos:

Paso 1 : Alineación multimodal centrada en el lado de la codificación LLM. Esta etapa entrena la capa de proyección de entrada mientras congela la capa de proyección de salida de ImageBind, LLM.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Paso 2 : Alineación de seguimiento de instrucciones del lado de decodificación. Esta etapa entrena las capas de proyección de salida mientras congela las capas de proyección de entrada de ImageBind, LLM.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```
Paso-3 : ajuste de instrucciones. Esta etapa de instrucción Tune 1) LLM a través de Lora, 2) capa de proyección de entrada y 3) capa de proyección de salida en el conjunto de datos de instrucciones.
```
# Encoding-side LLM-centric Multimodal Alignment bash scripts/pretrain_enc.sh
```

4. Ejecutando el sistema Next-GPT [volver a arriba]

4.1. Preparación de los puntos de control

primero, cargando el sistema de Next-GPT previamente capacitado.

Paso 1 : Cargue Frozen parameters . Consulte 3.1 Preparación del punto de control previamente capacitado.
Paso-2 : Cargar Tunable parameters . Ponga el próximo sistema GPT en ./checkpoints/nextgpt-v1.5-7b. Puede 1) usar los parámetros entrenados, o 2) descargue nuestros puntos de control de Huggingface.

4.2. Ejecute la predicción

al finalizar la carga del punto de control, puede ejecutar la predicción a través de:

python predict.py

5. Autorando su propio sistema [Volver a arriba]

5.1. Conjunto de datos

Puede definir su propio conjunto de datos, consulte el base_dataset.py y luego agregar el catalog del conjunto de datos en Catalog.py, incluido el target y parameters .

5.2. Model Framework

Coder multimodal : puede aprovechar su propio codificador multimodal en el directorio de codificadores multimodales y agregar el código correspondiente en Builder.py.
Decodificador multimodal : puede agregar su propio decodificador multimodal, en el directorio de decodificadores multimodales, y modificar el código correspondiente en Builder.py.
Proyector : puede diseñar su propio proyector de entrada y salida en proyector multimodal.

5.3. Autorización FINAL

Puede definir el modelo, los datos y los parámetros de entrenamiento en Training_utils.py. Consulte Finetune.sh para ajustar su propio modelo.

Póngase en contacto

con cualquier pregunta o retroalimentación, no dude en comunicarse con Shengqiong Wu y Hao Fei.

Cita

Si encuentra que NextGPT es útil en su investigación o aplicaciones, por favor cita:

@inproceedings{wu24next, title={{NE}x{T}-{GPT}: Any-to-Any Multimodal {LLM}}, author={Wu, Shengqiong and Fei, Hao and Qu, Leigang and Ji, Wei and Chua, Tat-Seng}, booktitle={Proceedings of the International Conference on Machine Learning}, pages = {53366--53397}, year={2024} }

Agradecimientos

Puede consultar el trabajo relacionado que sirva como fundamentos para nuestro marco y repositorio de código, vicuna, imagen de imagen, difusión estable, audioldm y zeroscope. También nos inspiramos parcialmente en Pandagpt,
Gill, Codi, Video-Llama, Llava y Minigpt-4. Gracias por sus maravillosas obras.

Avisos de licencia

Este repositorio está bajo la licencia BSD 3 cláusula. Next-GPT es un proyecto de investigación destinado solo a uso no comercial. No se debe usar el código de Next-GPT para fines ilegales, dañinos, violentos, racistas o sexuales. Uno está estrictamente prohibido participar en cualquier actividad que potencialmente viole estas pautas. Cualquier uso comercial potencial de este código debe ser aprobado por los autores.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 97.83MB
Proviene de Github

Aplicaciones relacionadas

next saas starter

2024-11-06
LLaVA NeXT

2024-11-04
Diseña el próximo iPhone

2024-02-21
La última versión de GPT cine y televisión.

2023-10-30
Aplicación Next Todo

2023-08-07
Xanadú Siguiente

2022-08-18

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo