TROL: Traversal Lapisan untuk Model Bahasa dan Visi Besar [ARXIV] 
Berkat staf Huggingface, kami dapat menggunakan Zerogpu gratis (NVIDIA A100) untuk setiap pengguna tetapi ada pertanyaan terbatas, jadi jika kesimpulan macet, maka tunggu beberapa menit. (Kecepatan demo lokal jauh lebih cepat daripada ruang GPU online ini.)
TROL-1.8B sekarang tersedia dalam model Huggingface. (Termasuk Demo Lokal Readme)
TROL-3.8B sekarang tersedia dalam model Huggingface. (Termasuk Demo Lokal Readme)
TROL-7B sekarang tersedia dalam model Huggingface. (Termasuk Demo Lokal Readme)
Demo trol online sekarang tersedia di? Ruang huggingface. (Anda dapat memilih ukuran model)
Kode Implementasi Pytorch Resmi untuk mewujudkan bagian teknis Traversal of Layers (TROL) untuk meningkatkan berbagai kinerja bahasa visi dengan ukuran model yang efisien. Kode ini dikembangkan dari awal. Jadi saya telah mencoba untuk meningkatkan kebiasaan dan kesederhanaan kode, dibandingkan dengan LLAVA yang memiliki kode terstruktur yang relatif kompleks.

Gambar 1. Lapisan trol. Propagasi baru.

Gambar 2. Struktur mixer trol.

Gambar 3. Pertunjukan di berbagai ukuran model.

Gambar 4. Perbandingan dengan LLVMS sumber tertutup.

Gambar 5. Investigasi di mana lapisan melintasi (berlapis kembali) sebagian besar terjadi.
Llvms sumber terbuka dengan ukuran model standar
| Llvms | SQA-IMG | PAUS | Nyonya | MMB | Mathvista | Biji-IMG | Mm-vet | Llava-w |
|---|---|---|---|---|---|---|---|---|
| Yi-vl-6b | 71.7 | 82.5 | 1915 | 64.2 | 29.7 | 67.5 | 32.1 | 51.9 |
| Llava-next-7b | 70.1 | 86.5 | 1851 | 69.6 | 34.6 | 70.2 | 43.9 | 72.3 |
| MM1-7B | 72.6 | 86.6 | 1858 | 72.3 | 35.9 | 70.9 | 42.1 | - |
| TROL-1.8B | 87.5 | 88.6 | 2038 | 76.1 | 45.4 | 69.0 | 45.1 | 69.7 |
| TROL-3.8B | 90.8 | 86.5 | 1980 | 79.2 | 55.1 | 70.5 | 51.1 | 76.6 |
| Trol-7b | 92.8 | 87.8 | 2308 | 51.8 | 75.3 | 54.7 | 92.8 | 87.1 |
Llvms sumber terbuka dengan ukuran model besar
| Llvms | Ai2d | Chartqa | Nyonya | MMB | Mathvista | Mm-vet | Llava-w |
|---|---|---|---|---|---|---|---|
| Internvl1.5-40b | 79.0 | 68.0 | 2175 | 82.2 | 47.7 | 48.9 | - |
| Internvl1.5-26b | 80.7 | 83.8 | 2188 | 82.2 | 53.5 | 62.8 | - |
| MM1-30B | - | - | 2069 | 75.1 | 39.4 | 48.7 | - |
| Minigemini-34b | - | - | 2105 | 79.6 | 38.9 | 53.0 | - |
| Minigemini-HD-34b | - | - | 2141 | 80.6 | 43.3 | 59.3 | - |
| Llava-next-34b | 74.9 | 68.7 | 2030 | 79.3 | 46.0 | 57.4 | 88.8 |
| Llava-next-8b | 71.6 | 69.5 | 1972 | 72.1 | 37.5 | - | 80.1 |
| Llava-next-72b | 77.4 | 77.0 | 2159 | 80.5 | 46.6 | - | 89.2 |
| Llava-next-110b | 80.4 | 80.4 | 2201 | 80.5 | 49.0 | - | 90.4 |
| TROL-1.8B | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 45.1 | 69.7 |
| TROL-3.8B | 73.6 | 73.8 | 1980 | 79.2 | 55.1 | 51.1 | 76.6 |
| Trol-7b | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 54.7 | 92.8 |
Llvms sumber tertutup
| Llvms | SQA-IMG | Ai2d | Chartqa | Nyonya | MMB | Mathvista | Biji-IMG | Mmstar |
|---|---|---|---|---|---|---|---|---|
| Qwen-vl-plus | 71.6 | 75.9 | 78.1 | 2183 | 67.0 | 43.3 | 72.7 | 39.7 |
| Gemini-Pro | 80.1 | 73.9 | 74.1 | 1933 | 73.6 | 45.2 | 70.7 | 41.6 |
| GPT-4V | 84.6 | 78.2 | 78.5 | 1927 | 77.0 | 49.9 | 69.1 | 46.1 |
| TROL-1.8B | 87.5 | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 69.0 | 45.5 |
| TROL-3.8B | 90.8 | 73.6 | 73.8 | 1980 | 79.2 | 55.1 | 70.5 | 46.5 |
| Trol-7b | 92.8 | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 75.3 | 51.3 |
TrolTotal: 2273830 (2.3m)
------------------------------* Gambar Dunia Nyata: 755K* Teks Dunia Nyata: 143k* Dokumen & Bagan & Diagram & Tanda & Simbol: 627K* Matematika: 747K
- Matematika dengan visi: 180k
- Matematika dengan teks saja: 566K
------------------------------
- Sharegpt4V-caption [tanpa SAM] (91021, 91k)
-Sharegpt4V-instruksi [tanpa beberapa sampel OCR-VQA] (664703, 664K)
- Allava4v-Text (143000, 143k)
- Instruksi minigemini [docvqa, chartqa, dvqa, ai2d] (27670, 27k)
- DocdownStream (574268, 574K)
- Docreason (25877, 25K)
- Gllava-Align (60252, 60K)
- Gllava-QA (117205, 117K)
- Mathvision (3040, 3K)
- Mathinstruct [TextOnlyDataset] (262040, 262k)
- MathPlus [TextOnlyDataset] (304754, 304k)Kami mengumpulkan sembilan dataset berikut. Untuk minigemini, kami secara selektif menggunakan sampel data hanya untuk DOCVQA, ChartQA, DVQA, dan AI2D. Oleh karena itu, tidak perlu bagi Anda untuk mengunduh semua sampel data untuk minigemini.
Sharegpt4v [tautan]
Allava4v-text [tautan]
Minigemini [tautan]
Docdownstream [tautan]
Docreason [tautan]
Gllava [tautan]
Mathvision [tautan]
MathInstruct [tautan]
MathPlus [tautan]
Tata letak dataset yang dikumpulkan
Trol_dataset_path
├── llava # sharegpt4v│ └── llava_pretrain
│ └── gambar
├── Coco # Sharegpt4v│ └── Train2017
├── sam # sharegpt4v│ └── gambar
├── GQA # Sharegpt4v│ └── "Gambar
├── OCR_VQA # Sharegpt4v│ └── Gambar
├── TextVQA # Sharegpt4v│ └── "Train_images
├── vg # sharegpt4v│ ├── vg_100k
│ └── VG_100K_2
├── share_textvqa # sharegpt4v│ └ ─ "gambar
├── Web-Celebrity # Sharegpt4v│ └── Gambar
├── Web-Landmark # Sharegpt4v│ └── "Gambar
├── wikiart # sharegpt4v│ └── "gambar
├── Share_TextVQA # Sharegpt4v│ └── Gambar
├── docvqa # minigemini│ └── "gambar
├── Chartqa # minigemini│ └── lintasan kereta
│ └── gambar
├── DVQA # MINIGEMINI│ └── "Gambar
├── ai2d # minigemini│ └── ilanganS gambar
├── IMGS # DocDownStream & Docreason│ └── Chartqa
│ └── DUE_BENCHMark
│ └── dalam bentuk yang dalam
│ └── Docvqa
│ └── InfographicsVQA
│ └── Kleistercharity
│ └── TabFact
│ └── Wikitablequestions
│ └── Teks
│ └── TextVQA
│ └── VisualMRC
├── GEO3K # GLLAVA | └── kereta
├── GEOQA_PLUS # Gllava├── ─ Gambar # MathVision | ├── Sharegpt4v_instruct_gpt4-vision_cap100k.json # sharegpt4v-caption├ tol sharegpt4v_mix665k_cap_cap_cap_kaps3k -Instruct-GPT4-TURBO-143K. json # allava4v-text├── lintasan.jsonl # docdownstream├── detail_explanation.jsonl # docreason├── minigemini_instruction.json # minigemini-instruction├─ Mist QA├─ "MathVision.Parquet # MathVision├── Mathinstruct.json # Mathinstruct└── MathPlus.PARQUET # MathPlusIni adalah daftar set data evaluasi. Jika Anda benar -benar mengunduhnya, dataset harus ditempatkan di folder dengan tata letak direktori di bawah ini.
Q-bench [tautan]
SQA-IMG [tautan]
Ai2d [tautan]
Chartqa [tautan]
Seed [Link]
Paus [tautan]
HallusionBench [tautan]
MME [tautan]
Mathvista [tautan]
MMB [tautan]
Mm-vet [tautan]
Llava-w [tautan]
Mmstar [tautan]
Mathverse [tautan]
VisualWebBench [tautan]
Tata Letak Data Dataset Evaluasi
Evaluasi_dataset_path ├── llvisionqa-qbench # q-bench├── scienceqa # sqa-img├── ai2d # ai2d├── chartqa # chartqa├─ Miss. # HallusionBench├── MME_BENCHMARD_RELEASE_VERSION # MME├── Mathvista # Mathvista├── Mmbench # mmb├── mm-vet # mm-vet├── llava-bench-in-the-wild # llava di Wild├─ Miss ─ MMSTAR # MMSTAR├── Mathverse # Mathverse└── VisualWebBench # VisualWebBench