Trol: การสำรวจเลเยอร์สำหรับรูปแบบภาษาและวิสัยทัศน์ขนาดใหญ่ [arxiv] 
ขอบคุณพนักงาน HuggingFace เราสามารถใช้ Zerogpu ฟรี (Nvidia A100) สำหรับผู้ใช้แต่ละคน แต่มีข้อสงสัยที่ จำกัด ดังนั้นหากการอนุมานติดอยู่โปรดรอสักครู่ (ความเร็วในการสาธิตในท้องถิ่นนั้นเร็วกว่าพื้นที่ GPU ออนไลน์นี้มาก)
ตอนนี้ TROL-1.8B มีอยู่แล้วในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้ TROL-3.8B มีอยู่ในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้ TROL-7B มีอยู่ในรุ่น HuggingFace (รวม Readme สาธิตท้องถิ่น)
ตอนนี้การสาธิต trol ออนไลน์มีให้บริการแล้ว? HuggingFace Spaces (คุณสามารถเลือกขนาดรุ่น)
รหัสการใช้งาน Pytorch อย่างเป็นทางการสำหรับการตระหนักถึงส่วนทางเทคนิคของ การสำรวจเลเยอร์ (trol) เพื่อปรับปรุงการแสดงภาษาที่มีวิสัยทัศน์จำนวนมากด้วยขนาดของแบบจำลองที่มีประสิทธิภาพ รหัสนี้ได้รับการพัฒนาตั้งแต่เริ่มต้น ดังนั้นฉันจึงพยายามปรับปรุงการอ่านและความเรียบง่ายของรหัสเมื่อเทียบกับ LLAVA ซึ่งมีรหัสที่มีโครงสร้างค่อนข้างซับซ้อน

รูปที่ 1. ชั้น Trol การแพร่กระจายใหม่

รูปที่ 2. โครงสร้างของ Trol ตัวผสม

รูปที่ 3. การแสดงในหลาย ๆ รุ่น

รูปที่ 4. เปรียบเทียบกับ LLVMS แบบปิดแหล่งข้อมูล

รูปที่ 5. การตรวจสอบที่เลเยอร์สำรวจ (การนำกลับมาใช้ใหม่) ส่วนใหญ่เกิดขึ้น
LLVM แบบโอเพนซอร์ซที่มีขนาดรุ่นมาตรฐาน
| LLVMS | SQA-IMG | สมเด็จพระสันตะปาปา | mme | MMB | Mathvista | เมล็ดพันธุ์ | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|---|
| yi-vl-6b | 71.7 | 82.5 | 2458 | 64.2 | 29.7 | 67.5 | 32.1 | 51.9 |
| llava-next-7b | 70.1 | 86.5 | 2394 | 69.6 | 34.6 | 70.2 | 43.9 | 72.3 |
| MM1-7B | 72.6 | 86.6 | พ.ศ. 2401 | 72.3 | 35.9 | 70.9 | 42.1 | - |
| Trol-1.8b | 87.5 | 88.6 | 2038 | 76.1 | 45.4 | 69.0 | 45.1 | 69.7 |
| Trol-3.8b | 90.8 | 86.5 | 2523 | 79.2 | 55.1 | 70.5 | 51.1 | 76.6 |
| trol-7b | 92.8 | 87.8 | 2308 | 51.8 | 75.3 | 54.7 | 92.8 | 87.1 |
LLVM แบบโอเพนซอร์ซที่มีขนาดขนาดใหญ่
| LLVMS | AI2D | ชาร์ตกา | mme | MMB | Mathvista | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|
| internvl1.5-40b | 79.0 | 68.0 | 2175 | 82.2 | 47.7 | 48.9 | - |
| internvl1.5-26b | 80.7 | 83.8 | 2188 | 82.2 | 53.5 | 62.8 | - |
| MM1-30B | - | - | 2069 | 75.1 | 39.4 | 48.7 | - |
| minigemini-34b | - | - | 2105 | 79.6 | 38.9 | 53.0 | - |
| Minigemini-HD-34B | - | - | 2141 | 80.6 | 43.3 | 59.3 | - |
| llava-next-34b | 74.9 | 68.7 | 2030 | 79.3 | 46.0 | 57.4 | 88.8 |
| llava-next-8b | 71.6 | 69.5 | 2515 | 72.1 | 37.5 | - | 80.1 |
| llava-next-72b | 77.4 | 77.0 | 2159 | 80.5 | 46.6 | - | 89.2 |
| llava-next-110b | 80.4 | 80.4 | 2201 | 80.5 | 49.0 | - | 90.4 |
| Trol-1.8b | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 45.1 | 69.7 |
| Trol-3.8b | 73.6 | 73.8 | 2523 | 79.2 | 55.1 | 51.1 | 76.6 |
| trol-7b | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 54.7 | 92.8 |
LLVMS แบบปิดแหล่งข้อมูล
| LLVMS | SQA-IMG | AI2D | ชาร์ตกา | mme | MMB | Mathvista | เมล็ดพันธุ์ | MMSTAR |
|---|---|---|---|---|---|---|---|---|
| qwen-vl-plus | 71.6 | 75.9 | 78.1 | 2183 | 67.0 | 43.3 | 72.7 | 39.7 |
| ราศีเมถุน | 80.1 | 73.9 | 74.1 | 2476 | 73.6 | 45.2 | 70.7 | 41.6 |
| GPT-4V | 84.6 | 78.2 | 78.5 | 2470 | 77.0 | 49.9 | 69.1 | 46.1 |
| Trol-1.8b | 87.5 | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 69.0 | 45.5 |
| Trol-3.8b | 90.8 | 73.6 | 73.8 | 2523 | 79.2 | 55.1 | 70.5 | 46.5 |
| trol-7b | 92.8 | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 75.3 | 51.3 |
การวิ่งเหยาะๆรวม: 2273830 (2.3m)
--------------------------* ภาพในโลกแห่งความเป็นจริง: 755K* ข้อความจริง: 143K* เอกสาร & แผนภูมิและไดอะแกรม & Sign & Symbol: 627K* คณิตศาสตร์: 747K
- คณิตศาสตร์ด้วยวิสัยทัศน์: 180K
- คณิตศาสตร์ด้วยข้อความเท่านั้น: 566K
-
- ShareGPT4V-CAPTION [ไม่มี SAM] (91021, 91K)
-ShareGPT4V-Instruction [ไม่มีตัวอย่างของ OCR-VQA] (664703, 664K)
- allava4v-text (143000, 143K)
- Minigemini-Instruction [Docvqa, Chartqa, DVQA, AI2d] (27670, 27K)
- DocDownstream (574268, 574K)
- Docreason (25877, 25K)
- Gllava-Align (60252, 60K)
- Gllava-Qa (117205, 117K)
- MathVision (3040, 3K)
- MathInstruct [TextOnlyDataset] (262040, 262K)
- MathPlus [TextOnlyDataset] (304754, 304K)เรารวบรวมชุดข้อมูลเก้าชุดต่อไปนี้ สำหรับ Minigemini เราเลือกตัวอย่างข้อมูลเฉพาะสำหรับ DocVQA, Chartqa, DVQA และ AI2D ดังนั้นจึงไม่จำเป็นที่คุณจะต้องดาวน์โหลดตัวอย่างข้อมูลทั้งหมดสำหรับ Minigemini
ShareGPT4V [ลิงก์]
allava4v-text [ลิงก์]
Minigemini [ลิงก์]
DocDownstream [ลิงก์]
Docrein [ลิงก์]
gllava [ลิงก์]
MathVision [ลิงก์]
Mathinstruct [ลิงก์]
MathPlus [ลิงก์]
รวบรวมเค้าโครงชุดข้อมูล
trol_dataset_path
├── llava # sharegpt4v│ llava_pretrain
ภาพ
├── Coco # Sharegpt4v│─7 Train2017
apple
├── GQA # ShareGPT4V│──ภาพ
├── OCR_VQA # ShareGpt4V│└─,ภาพ
text
├ดุ vg # sharegpt4v│─ vg_100k
│── VG_100K_2
├── Share_Textvqa # ShareGpt4V│└──ภาพ
├── Web-Celebrity # ShareGPT4V│──รูปภาพ
web-landmark # sharegpt4v│──รูปภาพ
├── WikiArt # ShareGpt4V│──รูปภาพ
├── Share_Textvqa # ShareGpt4V│└──ภาพ
├── docvqa # minigemini│──ภาพ
├── Chartqa # minigemini│──รถไฟ
ภาพ
├── DVQA # minigemini│──ภาพ
├── Ai2d # minigemini│──ภาพ
├── IMGS # DOCDOWNSTREAM & DOCROINE
│└── Due_benchmark
deepform
docvqa
│── Infographicsvqa
│── Kleistercharity
tabfact
│└── Wikitablequestions
textcaps textcaps
textvqa
│── VisualMrc
├── GEO3K # gllava | └──รถไฟ
├── GEOQA_PLUS # GLLAVA├THINEภาพ # MATHVISION | ├ดุ ShareGPT4V_INSTRUCT_GPT4-VISION_CAP100K.JSON # ShareGPT4V-CAPTION├THAREGPT4V_MIX665K_CAP23K_COCO-AP9K_LCOUCK_LCFOUCK ( Evol-Instruct-GPT4-Turbo-143K JSON # allava4v-text├── train.jsonl # docdownstream├── detailed_explanation.jsonl # docreason├ดุ minigemini_instruction.json # minigemini-instruction├─Llava_align.parquet # gllava qa├── mathvision.parquet # mathvision├── mathinstruct.json # mathinstruct└─ mathplus.parquet # mathplusนี่คือรายการชุดข้อมูลการประเมินผล หากคุณดาวน์โหลดอย่างสมบูรณ์ชุดข้อมูลควรวางไว้ในโฟลเดอร์โดยเค้าโครงด้านล่างของไดเรกทอรีต่อไปนี้
Q-bench [link]
SQA-IMG [ลิงก์]
ai2d [ลิงก์]
Chartqa [ลิงก์]
เมล็ด [ลิงก์]
สมเด็จพระสันตะปาปา [ลิงก์]
HallusionBench [Link]
mme [ลิงก์]
Mathvista [ลิงก์]
MMB [ลิงก์]
MM-VET [ลิงก์]
llava-w [ลิงก์]
mmstar [ลิงก์]
Mathverse [ลิงก์]
VisualWebBench [ลิงก์]
เค้าโครงชุดข้อมูลชุดข้อมูลการประเมินผล
Evaluation_Dataset_Path llvisionqa-qbench # q-bench├─ Scienceqa # sqa-img├─ Ai2d # ai2d├─ chartqa # chartqa├──เมล็ดพันธุ์ # seed-img├ดุสมเด็จ # HallusionBench├─ mme_benchmark_release_version # mme├─ mathvista # mathvista├─ mmbench # mmb├─ mm-vet # mm-vet├─L llava-bench-bench-bench # llava bench ในป่าป่า ─ MMSTAR # MMSTAR├L