trol:大語言和視覺模型的層遍歷[arxiv] 
多虧了HuggingFace員工,我們可以為每個用戶使用免費的Zerogpu(NVIDIA A100),但是查詢有限,因此,如果粘住了推論,請等待幾分鐘。 (本地演示速度比這個在線GPU領域要快得多。)
huggingface模型現在可以使用trol-1.8b。 (包括本地演示讀數)
現在,huggingface模型可用trol-3.8b。 (包括本地演示讀數)
現在,huggingface型號可用trol-7b。 (包括本地演示讀數)
在網上trol演示現在可以在“擁抱面”空間中使用。 (您可以選擇型號大小)
官方的Pytorch實施代碼,用於實現圖層遍歷(TROL)的技術部分,以改善具有高效模型大小的眾多視覺性能。此代碼是從頭開始開發的。因此,與具有相對複雜結構的代碼相比,我一直在嘗試提高代碼的可讀性和簡單性。

圖1。TROL層。新的傳播。

圖2。托爾混合物的結構。

圖3。跨多個模型大小的性能。

圖4。與封閉源LLVM的比較。

圖5。調查層橫穿(重複使用層)的位置主要發生。
具有標準型號的開源LLVM
| llvms | sqa-img | 教皇 | 媽媽 | MMB | Mathvista | 種子img | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|---|
| YI-VL-6B | 71.7 | 82.5 | 1915年 | 64.2 | 29.7 | 67.5 | 32.1 | 51.9 |
| llava-next-7b | 70.1 | 86.5 | 1851年 | 69.6 | 34.6 | 70.2 | 43.9 | 72.3 |
| MM1-7B | 72.6 | 86.6 | 1858年 | 72.3 | 35.9 | 70.9 | 42.1 | - |
| TROL-1.8B | 87.5 | 88.6 | 2038 | 76.1 | 45.4 | 69.0 | 45.1 | 69.7 |
| TROL-3.8B | 90.8 | 86.5 | 1980 | 79.2 | 55.1 | 70.5 | 51.1 | 76.6 |
| 小手手-7B | 92.8 | 87.8 | 2308 | 51.8 | 75.3 | 54.7 | 92.8 | 87.1 |
具有較大型號的開源LLVM
| llvms | AI2D | Chartqa | 媽媽 | MMB | Mathvista | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|
| internvl1.5-40b | 79.0 | 68.0 | 2175 | 82.2 | 47.7 | 48.9 | - |
| Internvl1.5-26b | 80.7 | 83.8 | 2188 | 82.2 | 53.5 | 62.8 | - |
| MM1-30B | - | - | 2069 | 75.1 | 39.4 | 48.7 | - |
| Minigemini-34b | - | - | 2105 | 79.6 | 38.9 | 53.0 | - |
| Minigemini-HD-34B | - | - | 2141 | 80.6 | 43.3 | 59.3 | - |
| llava-next-34b | 74.9 | 68.7 | 2030 | 79.3 | 46.0 | 57.4 | 88.8 |
| llava-next-8b | 71.6 | 69.5 | 1972 | 72.1 | 37.5 | - | 80.1 |
| llava-next-72b | 77.4 | 77.0 | 2159 | 80.5 | 46.6 | - | 89.2 |
| llava-next-1110b | 80.4 | 80.4 | 2201 | 80.5 | 49.0 | - | 90.4 |
| TROL-1.8B | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 45.1 | 69.7 |
| TROL-3.8B | 73.6 | 73.8 | 1980 | 79.2 | 55.1 | 51.1 | 76.6 |
| 小手手-7B | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 54.7 | 92.8 |
封閉源LLVM
| llvms | sqa-img | AI2D | Chartqa | 媽媽 | MMB | Mathvista | 種子img | mmstar |
|---|---|---|---|---|---|---|---|---|
| qwen-vl-plus | 71.6 | 75.9 | 78.1 | 2183 | 67.0 | 43.3 | 72.7 | 39.7 |
| 雙子座 | 80.1 | 73.9 | 74.1 | 1933年 | 73.6 | 45.2 | 70.7 | 41.6 |
| GPT-4V | 84.6 | 78.2 | 78.5 | 1927年 | 77.0 | 49.9 | 69.1 | 46.1 |
| TROL-1.8B | 87.5 | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 69.0 | 45.5 |
| TROL-3.8B | 90.8 | 73.6 | 73.8 | 1980 | 79.2 | 55.1 | 70.5 | 46.5 |
| 小手手-7B | 92.8 | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 75.3 | 51.3 |
trol總計:2273830(230萬)
-------------------------------------*現實世界圖像:755K*現實世界文字:143K*文檔和圖表與圖&Sign&Sumply:627K*數學:747K
- 視力數學:180k
- 僅具有文字的數學:566K
------------------------------------------
-shareGpt4v捕獲[無SAM](91021,91k)
-shareGpt4v-Instruction [沒有幾個OCR-VQA樣本](664703,664K)
-Allava4v-Text(143000,143K)
-Minigemini-Instruction [DOCVQA,CHARTQA,DVQA,AI2D](27670,27K)
-docdownstream(574268,574K)
- 杜季節(25877,25k)
-Gllava-Align(60252,60K)
-Gllava-QA(117205,117K)
-Mathvision(3040,3K)
-Mathinstruct [Textonlydataset](262040,262K)
-Mathplus [textonlydataset](304754,304k)我們收集以下九個數據集。對於Minigemini,我們僅有選擇地將數據樣本用於DOCVQA,CHARTQA,DVQA和AI2D。因此,您無需下載Minigemini的所有數據樣本。
sharegpt4v [鏈接]
Allava4v-Text [link]
Minigemini [鏈接]
docdownstream [鏈接]
do季節[鏈接]
Gllava [鏈接]
Mathvision [鏈接]
Mathinstruct [鏈接]
Mathplus [鏈接]
收集的數據集佈局
trol_dataset_path
├├期llava#sharegpt4v│└└─-llava_pretrain
││└前圖
├ - 可可#sharegpt4v│└──Train2017
├├期sam#sharegpt4v││ - 圖像
├─-gqa#sharegpt4v│└─..m圖像
├ - ─ocr_vqa#sharegpt4v││─圖像
textvqa#sharegpt4v│└-textvqa#train_images
├├期:vg#sharegpt4v│├──VG_100K
││└─-VG_100K_2
├├─share_textvqa#sharegpt4v││-圖像
├ - ─-Web-Celebrity#sharegpt4v│└-圖像
├ - ─網絡標誌#sharegpt4v│└─..m圖像
Wikiart#sharegpt4v│└─..m圖像圖像
├├─share_textvqa#sharegpt4v││-圖像
├ - docvqa#minigemini│ - 圖像
ChartQA#MINIGEMINI│ - 訓練
││└前圖
├ - dVQA#MINIGEMINI│ - 圖像
├├期 - AI2D#MINIGEMINI│ - 圖像
├ - imgs#docdownstream&doerosaly│ - chartqa
│└└─-due_benchmark
││└站
││└└-docvqa
││└└-infopraphicsVQA
││└站
││└─....tabfact
│└└└└-wikiblesquestions
│└│└-textcaps
textVQA
Visualmrc
├─geo3k#gllava | └ - 火車
├─-geoqa_plus#gllava├─圖像#MATHVISION | MATHVISION | sharegpt4v_instruct_gpt4-vish4-vision_cap100k.json#sharegpt4v-caption├─ OL-Instruct-GPT4-Turbo-143K。 json # ALLAVA4V-Text├── train.jsonl # DocDownstream ├── detailed_explanation.jsonl # DocReason├── minigemini_instruction.json # MiniGemini-Instruction├── gllava_align.parquet # GLLaVA-Align├── gllava_qa.parquet # GLLaVA- QA├├─Mathvision.parquet#Mathvision├─Mathinstruct. json#MathinStruct└─Mathplus.parquet#Mathplus這些是評估數據集的列表。如果您完全下載它們,則應通過以下目錄佈局將數據集放在文件夾中。
Q BENCH [鏈接]
SQA-IMG [鏈接]
AI2D [鏈接]
ChartQA [鏈接]
種子[鏈接]
教皇[鏈接]
HallusionBench [鏈接]
MME [鏈接]
Mathvista [鏈接]
MMB [鏈接]
MM-VET [鏈接]
llava-w [鏈接]
mmstar [鏈接]
數學[鏈接]
Visualwebbench [鏈接]
評估數據集目錄佈局
evaluation_dataset_path ├──llvisionqa-qbench#q-Bench├─科學QA#sqa-img├iscon-ai2d#ai2d├-加台Qa#chartqa#chartqa#chartqa├──ic- seed-bench#seed-img├─pope #pope#pope#pope├iscon-pope├ischimusion-hallushiusionbench #halliusionBench├─mme_benchmark_release_version#mme├istion#mathvista#Mathvista├─mmmbench#mmb├─mm-vet#mm-vet#mm-vet├─lllava-llava -in-the-the-the-the-the-wild#lllava bent thewild├-lllava bent theWild├istripintion├-llava batch ─MMSTAR#MMSTAR├─Mathverse#Mathverse└─Visualwebbench#VisualWebbbench