Open LLaVA NeXT Next Download - Open LLaVA NeXT Source Code Descargar Descargar

Open LLaVA NeXT

Otro código fuente

Open-LLaVA-Next

Descargar

Open-llava-next

Una implementación de código abierto de la serie Llava-Next para facilitar la gran comunidad de modelos multimodal.

Recursos: [? Huggingface]

Reflejos

Todos los datos de capacitación y los puntos de control en cada etapa son de código abierto, amigables para el uso de la investigación.
Capaz de reproducir los resultados de Llava-Next .
Basado en la base de código LLAVA con una modificación mínima, fácil de seguir.

? Zoológico modelo

Vea más detalles en Modelzoo.md.

Nombre	Vit	LLM	Pesas	Mete	SEMILLA	SQA	MMB	MMB-CN	Textvqa	GQA
llava-next-vicuna-7b	Clip-l-336	Vicuna-7b	Sft	1519	70.2	70.1	67.4	60.6	64.9	64.2
Open-Llava-Next-Vicuna-7b	Clip-l-336	Vicuna-7b	PT, SFT	1540	71.1	70.7	68.5	60.7	67.2	64.3
llava-next-llama3-8b	Clip-l-336	Llama3-8b	Sft	1591	72.7	73.4	72.6	69.0	65.0	65.5
Open-llava-next-llama3-8b	Clip-l-336	Llama3-8b	PT, SFT	1552	74.4	77.3	74.4	70.4	69.8	65.9

?hacer

Reproducir llava-next-llama3-8b
Integre VlMevalkit para una evaluación conveniente

? Instalar

Clon este repositorio y navegue a la carpeta Open-Llava-Next

git clone https://github.com/xiaoachen98/Open-LLaVA-NeXT.git
cd Open-LLaVA-NeXT

Paquete de instalación

conda create -n llava-next python=3.10 -y
conda activate llava-next
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

Instalar paquetes adicionales para capacitación

 pip install -e ".[train]"
pip install flash-attn --no-build-isolation

Preparación de datos

Debe seguir estos datos de instrucciones . MD para administrar los conjuntos de datos de capacitación.

Descripción general del entrenamiento

El entrenamiento Open-Llava-Next consta de dos etapas: (1) Etapa de alineación de características: Use un subconjunto de 558k del conjunto de datos Laion-CC-SBU para conectar un codificador de visión de pretrada congelada a un LLM congelado ; (2) Etapa de sintonización de instrucciones visuales: Finetune todo el modelo con 1M Datos de código abierto completamente abierto . La estadística de datos detallada se proporciona en el ajuste de instrucciones visuales. Tomamos la variante Vicuna-V1.5-7b como ejemplo para presentar los detalles de capacitación y evaluación.

Las series Open-Llava-Next están entrenadas en GPU A100 con memoria de 80 GB. Para entrenar en menos GPU, puede reducir el per_device_train_batch_size y aumentar el gradient_accumulation_steps en consecuencia. Y la utilización de Deepspeed cero-3 puede reducir aún más los requisitos de memoria. Siempre mantenga el tamaño de lotes global igual: per_device_train_batch_size x gradient_accumulation_steps x num_gpus .

Hiperparámetros

Utilizamos un mismo conjunto de hiperparámetros que Llava en Finetuning. A continuación se proporcionan tanto los hiperparámetros utilizados en el pretratamiento como la delicadeza de la pinza.

Preventiva

Hiperparámetro	Tamaño de lote global	Proyector LR	Épocas	Longitud máxima	Descomposición de peso
Open-llava-next-7b	256	1e-3	1	4096	0

Sintonia FINA

Hiperparámetro	Tamaño de lote global	LLM LR	Proyector LR	Torre de visión LR	Épocas	Longitud máxima	Descomposición de peso
Open-llava-next-7b	128	2E-5	2E-5	2E-6	1	4096	0

Predicha

Descargue el subconjunto 558K del conjunto de datos Laion-CC-SBU con subtítulos de BLIP aquí.

El pretratado toma alrededor de 5 horas para Open-Llava-Next-7B en 16 x A100 (80 g).

Script de entrenamiento con Deepspeed Zero-2: pretrain.sh .

--mm_projector_type mlp2x_gelu : el conector del idioma de visión MLP de dos capas.
--vision_tower openai/clip-vit-large-patch14-336 : Clip Vit-L/14 336px.

Ajuste de instrucciones visuales

Prepare los datos, debe seguir las instrucciones para la preparación de datos en los datos.
Prepare los proyectores MLP Puede descargar nuestros proyectores previos a los proyectores en Model Zoo, o especificar su propio proyector MLP después de la capacitación previa.
Comience a entrenar la sintonización de instrucciones visuales lleva alrededor de 20 horas para Open-Llava-Next-7B en 16x A100 (80 g).

Script de entrenamiento con DeepSpeed Zero-2: finetune.sh .

Nuevas opciones para tener en cuenta:

--unfreeze_mm_vision_tower True : Finetune Vision Tower.
--mm_vision_tower_lr 2e-6 : tasa de aprendizaje de la torre de visión.
--image_aspect_ratio anyres : procesar una imagen con resoluciones variables.
--mm_patch_merge_type spatial_unpad : esto no lo hará un tensor de pytorch de una imagen acolchada y redimensionada, e al insertar vectores de Newline aprendibles en tokens de imagen, el modelo se da cuenta de la información espacial bidimensional. Esto se utiliza para procesar el token de imagen.

Evaluación

Ver evaluación. MD.

Citación

Si encuentra útil este proyecto en su investigación, considere citar:

 @misc { chen2024open ,
  title = { Open-LLaVA-NeXT: An open-source implementation of LLaVA-NeXT series for facilitating the large multi-modal model community. } ,
  author = { Chen, Lin and Xing, Long } ,
  howpublished = { url{https://github.com/xiaoachen98/Open-LLaVA-NeXT} } ,
  year = { 2024 } ,
  doi = { 10.5281/zenodo.13935471 }
}

❤️ Agradecimientos

Llava: la base de código en la que construimos. ¡Gracias por sus brillantes contribuciones a la comunidad! Simplemente no podemos esperar a usar Llava-Next.
ShareGPT4V: Gracias por su código sobre Finetuning the Vision Tower.
VLMEVALKIT: ¡El increíble traje de código abierto para evaluar varios LMM!

Expandir

Información adicional

Versión Open-LLaVA-Next
Tipo Otro código fuente
Fecha de actualización 2025-03-05
tamaño 2.42MB
Proviene de Github

Aplicaciones relacionadas

LLaVA NeXT

2024-11-04
open webui

2024-11-03
powsybl open rao

2024-11-02
Xanadú Siguiente

2022-08-18
Atrio abierto

2013-02-25
Abrir Blog

2009-07-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo