トロール:大きな言語とビジョンモデルのための層のトラバーサル[arxiv] 
Huggingfaceのスタッフのおかげで、各ユーザーに無料のZerogpu(Nvidia A100)を使用できますが、クエリは限られているため、推論が適切な場合は数分待ってください。 (ローカルデモ速度は、このオンラインGPUスペースよりもはるかに高速です。)
Trol-1.8Bは、Huggingfaceモデルで利用可能になりました。 (ローカルデモreadmeが含まれています)
Trol-3.8Bは、ハグFaceモデルで利用可能になりました。 (ローカルデモreadmeが含まれています)
Trol-7Bは、Huggingfaceモデルで利用可能になりました。 (ローカルデモreadmeが含まれています)
オンライントロールデモは、「ハグ」フェイススペースで利用可能になりました。 (モデルサイズを選択できます)
効率的なモデルサイズの多数のビジョン言語パフォーマンスを改善するために、レイヤーのトラバーサル(TROL)の技術的部分を実現するための公式のPytorch実装コード。このコードはゼロから開発されています。そのため、比較的複雑に構造化されたコードを持っているLlavaと比較して、コードの読みやすさと単純さを改善しようとしています。

図1。トロールレイヤー。新しい伝播。

図2。トロルミキサーの構造。

図3。多数のモデルサイズにわたるパフォーマンス。

図4。クローズドソースLLVMとの比較。

図5。レイヤーの通過(レイヤーの再利用)がほとんど発生する場所の調査。
標準モデルサイズのオープンソースLLVM
| llvms | sqa-img | 法王 | mme | MMB | Mathvista | シードイミ | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|---|
| YI-VL-6B | 71.7 | 82.5 | 1915年 | 64.2 | 29.7 | 67.5 | 32.1 | 51.9 |
| llava-next-7b | 70.1 | 86.5 | 1851年 | 69.6 | 34.6 | 70.2 | 43.9 | 72.3 |
| MM1-7B | 72.6 | 86.6 | 1858年 | 72.3 | 35.9 | 70.9 | 42.1 | - |
| Trol-1.8b | 87.5 | 88.6 | 2038 | 76.1 | 45.4 | 69.0 | 45.1 | 69.7 |
| Trol-3.8b | 90.8 | 86.5 | 1980年 | 79.2 | 55.1 | 70.5 | 51.1 | 76.6 |
| Trol-7b | 92.8 | 87.8 | 2308 | 51.8 | 75.3 | 54.7 | 92.8 | 87.1 |
大きなモデルサイズのオープンソースLLVM
| llvms | ai2d | Chartqa | mme | MMB | Mathvista | MM-VET | llava-w |
|---|---|---|---|---|---|---|---|
| internvl1.5-40b | 79.0 | 68.0 | 2175 | 82.2 | 47.7 | 48.9 | - |
| internvl1.5-26b | 80.7 | 83.8 | 2188 | 82.2 | 53.5 | 62.8 | - |
| mm1-30b | - | - | 2069 | 75.1 | 39.4 | 48.7 | - |
| Minigemini-34b | - | - | 2105 | 79.6 | 38.9 | 53.0 | - |
| Minigemini-HD-34b | - | - | 2141 | 80.6 | 43.3 | 59.3 | - |
| llava-next-34b | 74.9 | 68.7 | 2030 | 79.3 | 46.0 | 57.4 | 88.8 |
| llava-next-8b | 71.6 | 69.5 | 1972年 | 72.1 | 37.5 | - | 80.1 |
| llava-next-72b | 77.4 | 77.0 | 2159 | 80.5 | 46.6 | - | 89.2 |
| llava-next-10b | 80.4 | 80.4 | 2201 | 80.5 | 49.0 | - | 90.4 |
| Trol-1.8b | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 45.1 | 69.7 |
| Trol-3.8b | 73.6 | 73.8 | 1980年 | 79.2 | 55.1 | 51.1 | 76.6 |
| Trol-7b | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 54.7 | 92.8 |
クローズドソースLLVMS
| llvms | sqa-img | ai2d | Chartqa | mme | MMB | Mathvista | シードイミ | mmstar |
|---|---|---|---|---|---|---|---|---|
| QWEN-VL-PLUS | 71.6 | 75.9 | 78.1 | 2183 | 67.0 | 43.3 | 72.7 | 39.7 |
| gemini-pro | 80.1 | 73.9 | 74.1 | 1933年 | 73.6 | 45.2 | 70.7 | 41.6 |
| GPT-4V | 84.6 | 78.2 | 78.5 | 1927年 | 77.0 | 49.9 | 69.1 | 46.1 |
| Trol-1.8b | 87.5 | 68.9 | 64.0 | 2038 | 76.1 | 45.4 | 69.0 | 45.5 |
| Trol-3.8b | 90.8 | 73.6 | 73.8 | 1980年 | 79.2 | 55.1 | 70.5 | 46.5 |
| Trol-7b | 92.8 | 78.5 | 71.2 | 2308 | 83.5 | 51.8 | 75.3 | 51.3 |
トロール合計:2273830(2.3m)
---------------------------------* Real-World Image:755K* Real-World Text:143K*ドキュメントとチャート&図&サイン&シンボル:627k*数学:747k
- ビジョンと数学:180k
- テキストのみの数学:566K
---------------------------------------
-sharegpt4v-caption [SAMなし](91021、91K)
-sharegpt4v-instruction [OCR-VQAのサンプルが少ない](664703、664K)
-allava4v-text(143000、143k)
-MINIGEMINI-INTRUCTION [DOCVQA、CHARTQA、DVQA、AI2D](27670、27K)
-docdownStream(574268、574k)
- ストクリーソン(25877、25K)
-Gllava-Align(60252、60K)
-Gllava-qa(117205、117k)
-MathVision(3040、3K)
-mathinstruct [Textonlydataset](262040、262k)
-mathplus [textonlydataset](304754、304k)次の9つのデータセットを収集します。 Minigeminiの場合、DOCVQA、ChartqA、DVQA、およびAI2Dのみでデータサンプルを選択的に使用します。したがって、Minigeminiのすべてのデータサンプルをダウンロードする必要はありません。
sharegpt4v [link]
allava4v-text [link]
ミニゲミニ[リンク]
docdownStream [リンク]
drcrains [link]
Gllava [リンク]
MathVision [リンク]
Mathinstruct [link]
Mathplus [リンク]
収集されたデータセットレイアウト
trol_dataset_path
├├。-llava#sharegpt4v│└··ックス - llava_pretrain
│└└。。画像
whid├─●coco#sharegpt4v│└│)そしてtrain2017
├├。Sam#sharegpt4v│└)
├├。。gqa#sharegpt4v│└··ックス画像
ocr_vqa#sharegpt4v│└)
and-後VQA#sharegpt4v│└··ックス。Train_images
├。。。。vg#sharegpt4v│├|紅vg_100k
│└。-vg_100k_2
and-後ishare share_textVqa
web-celebrity#sharegpt4v│└)
web-landmark#sharegpt4v│└)そして画像
wikiart#sharegpt4v│└)そして画像
and-後ishare share_textVqa
docvqa#MINIGEMINI│└··ックス画像
├├。-chartqa#minigemini│└└アクティブ。列車
│└└。。画像
dvqa#MINIGEMINI││··した画像
├├) ai2d#minigemini│└··ックス画像
├├)#docdownStream&doCreason│└└。�。CHARTQA
pury op_benchmark
│└│。ですか?
│└│。-docvqa
│└│。。INFOGRAPHICSVQA
│└。。
│└│。-タブファクト
│└。。
textcaps
│└│。-textVqa
│└。。visualmrc
├├) geo3k#gllava | └└)トレイン
Geoqa_plus#gllava├──画像#MathVision |├| ├) Evol-Instruct-GPT4-Turbo-143K。 JSON#allava4v-text├──train.jsonl#docdownStream├──詳細_explanation.jsonl#docrainthrieason ├)#minigemini-intruction. ~~ gllava_align.parquet#gllava-align├~ Qa├‑─●mathvision.parquet#mathvision├──mathinstruct.json#mathinstruct└#─) parquet#mathplusこれらは、評価データセットのリストです。それらを完全にダウンロードする場合は、データセットを以下のディレクトリレイアウト以下でフォルダーに配置する必要があります。
Qベンチ[リンク]
sqa-img [link]
ai2d [link]
chartqa [link]
シード[リンク]
教皇[リンク]
HallusionBench [リンク]
mme [link]
Mathvista [リンク]
MMB [リンク]
MM-VET [リンク]
llava-w [link]
mmstar [リンク]
数える[リンク]
VisualWebbench [リンク]
評価データセットディレクトリレイアウト
evaluation_dataset_path ├─— llvisionqa-qbench#q-bench-──scienceqa#sqa-img#~…─ai2d#ai2d├覧#hallusionbench ├)- mme_benchmark_release_version#mme├。#####MATHVISTA├。#MMB├──MM-VET#MM-VET├。。 ─MMSTAR#mmstar ├)