Open LLaVA NeXT - Open LLaVA NeXT

Open LLaVA NeXT

Kode sumber lainnya

Open-LLaVA-Next

Unduh

Open-llava-next

Implementasi open-source dari seri LLAVA-NEXT untuk memfasilitasi komunitas model multi-modal yang besar.

Sumber daya: [? Huggingface]

Highlight

Semua data pelatihan dan pos pemeriksaan di setiap tahap bersumber terbuka, ramah untuk penggunaan penelitian.
Dapat mereproduksi hasil llava-next .
Berdasarkan basis kode LLAVA dengan modifikasi minimal, mudah diikuti.

? Model Zoo

Lihat detail lebih lanjut di modelzoo.md.

Nama	Vit	Llm	Bobot	Nyonya	BENIH	SQA	MMB	MMB-CN	Textvqa	GQA
llava-next-vicuna-7b	Clip-L-336	Vicuna-7b	Sft	1519	70.2	70.1	67.4	60.6	64.9	64.2
Open-llava-next-vicuna-7b	Clip-L-336	Vicuna-7b	Pt, sft	1540	71.1	70.7	68.5	60.7	67.2	64.3
llava-next-llama3-8b	Clip-L-336	Llama3-8b	Sft	1591	72.7	73.4	72.6	69.0	65.0	65.5
Open-llava-next-llama3-8b	Clip-L-336	Llama3-8b	Pt, sft	1552	74.4	77.3	74.4	70.4	69.8	65.9

? ‍ TODO

Mereproduksi llava-next-llama3-8b
Mengintegrasikan vlmevalkit untuk evaluasi yang nyaman

? Memasang

Klone repositori ini dan navigasikan ke folder terbuka-llava-next

git clone https://github.com/xiaoachen98/Open-LLaVA-NeXT.git
cd Open-LLaVA-NeXT

Instal Paket

conda create -n llava-next python=3.10 -y
conda activate llava-next
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

Pasang paket tambahan untuk pelatihan

 pip install -e ".[train]"
pip install flash-attn --no-build-isolation

Persiapan data

Anda harus mengikuti data instruksi ini.md untuk mengelola dataset pelatihan.

Tinjauan pelatihan

Pelatihan Open -llava-Next terdiri dari dua tahap: (1) Tahap Penyelarasan Fitur: Gunakan subset 558K dari dataset Laion-CC-SBU untuk menghubungkan encoder penglihatan pretrained beku ke LLM beku ; (2) Tahap Tuning Instruksi Visual: Finetune Seluruh model dengan 1M data sumber terbuka yang sepenuhnya . Statika data terperinci disediakan dalam penyetelan instruksi visual. Kami mengambil varian Vicuna-V1.5-7B sebagai contoh untuk menyajikan rincian pelatihan dan evaluasi.

Seri Open-Llava-Next dilatih pada A100 GPU dengan memori 80GB. Untuk melatih GPU yang lebih sedikit, Anda dapat mengurangi per_device_train_batch_size dan meningkatkan gradient_accumulation_steps yang sesuai. Dan memanfaatkan nol-3 kecepatan dalam dapat mengurangi persyaratan memori lebih lanjut. Selalu jaga agar ukuran batch global tetap sama: per_device_train_batch_size x gradient_accumulation_steps x num_gpus .

Hyperparameters

Kami menggunakan hyperparameters yang sama dengan LLAVA di Finetuning. Baik hyperparameters yang digunakan dalam pretraining dan finetuning disediakan di bawah ini.

Pretraining

Hyperparameter	Ukuran batch global	Proyektor LR	Zaman	Panjang maksimal	Kerusakan berat badan
Open-llava-next-7b	256	1E-3	1	4096	0

Finetuning

Hyperparameter	Ukuran batch global	Llm lr	Proyektor LR	Vision Tower LR	Zaman	Panjang maksimal	Kerusakan berat badan
Open-llava-next-7b	128	2e-5	2e-5	2e-6	1	4096	0

Pretrain

Silakan unduh subset 558K dari dataset Laion-CC-SBU dengan teks blip di sini.

Pretrain membutuhkan waktu sekitar 5 jam untuk terbuka-llava-next-7b pada 16 x A100 (80g).

Script Pelatihan dengan Deeppeed Zero-2: pretrain.sh .

--mm_projector_type mlp2x_gelu : Konektor dua lapis dua lapis.
--vision_tower openai/clip-vit-large-patch14-336 : clip vit-l/14 336px.

Penyetelan instruksi visual

Mempersiapkan data Anda harus mengikuti instruksi untuk persiapan data dalam data.
Siapkan proyektor MLP Anda dapat mengunduh proyektor pretrained kami di Model Zoo, atau menentukan proyektor MLP Anda sendiri setelah pra-pelatihan.
Mulailah melatih penyetelan instruksi visual membutuhkan waktu sekitar 20 jam untuk terbuka-llava-next-7b pada 16x A100 (80G).

Script Pelatihan dengan Deeppeed Zero-2: finetune.sh .

Opsi baru yang perlu diperhatikan:

--unfreeze_mm_vision_tower True : Menara penglihatan finetune.
--mm_vision_tower_lr 2e-6 : Tingkat pembelajaran menara penglihatan.
--image_aspect_ratio anyres : Proses gambar dengan resolusi variabel.
--mm_patch_merge_type spatial_unpad : Ini membongkar tensor pytorch dari gambar empuk dan diubah ukurannya, dan dengan memasukkan vektor baru yang dapat dipelajari ke dalam token gambar, model ini menjadi sadar akan informasi spasial dua dimensi. Ini digunakan untuk memproses token gambar.

Evaluasi

Lihat Evaluasi.MD.

Kutipan

Jika Anda menemukan proyek ini berguna dalam penelitian Anda, silakan pertimbangkan CITE:

 @misc { chen2024open ,
  title = { Open-LLaVA-NeXT: An open-source implementation of LLaVA-NeXT series for facilitating the large multi-modal model community. } ,
  author = { Chen, Lin and Xing, Long } ,
  howpublished = { url{https://github.com/xiaoachen98/Open-LLaVA-NeXT} } ,
  year = { 2024 } ,
  doi = { 10.5281/zenodo.13935471 }
}

❤️ Ucapan Terima Kasih

LLAVA: Basis kode yang kami bangun. Terima kasih atas kontribusi brilian mereka kepada komunitas! Kami tidak sabar untuk menggunakan llava-next.
Sharegpt4V: Terima kasih atas kode mereka tentang Finetuning the Vision Tower.
VlMevalkit: Jas bersumber terbuka yang menakjubkan untuk mengevaluasi berbagai LMM!

Memperluas

Informasi Tambahan

Versi Open-LLaVA-Next
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-05
ukuran 2.42MB
Berasal dari Github

Aplikasi Terkait

LLaVA NeXT

2024-11-04
open webui

2024-11-03
powsybl open rao

2024-11-02
Xanadu Selanjutnya

2022-08-18
Buka Atrium

2013-02-25
Buka Blognya

2009-07-08

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua