TroLダウンロード - TroLソースコードのダウンロード

TroL

その他のソースコード

1.0.0

ダウンロード

トロール：大きな言語とビジョンモデルのための層のトラバーサル[arxiv]

EZGIF-3-E30B467E05

ニュース

Huggingfaceのスタッフのおかげで、各ユーザーに無料のZerogpu（Nvidia A100）を使用できますが、クエリは限られているため、推論が適切な場合は数分待ってください。（ローカルデモ速度は、このオンラインGPUスペースよりもはるかに高速です。）

Trol-1.8Bは、Huggingfaceモデルで利用可能になりました。（ローカルデモreadmeが含まれています）
Trol-3.8Bは、ハグFaceモデルで利用可能になりました。（ローカルデモreadmeが含まれています）
Trol-7Bは、Huggingfaceモデルで利用可能になりました。（ローカルデモreadmeが含まれています）
オンライントロールデモは、「ハグ」フェイススペースで利用可能になりました。（モデルサイズを選択できます）

効率的なモデルサイズの多数のビジョン言語パフォーマンスを改善するために、レイヤーのトラバーサル（TROL）の技術的部分を実現するための公式のPytorch実装コード。このコードはゼロから開発されています。そのため、比較的複雑に構造化されたコードを持っているLlavaと比較して、コードの読みやすさと単純さを改善しようとしています。

ハイライトされた画像

図1。トロールレイヤー。新しい伝播。

図2。トロルミキサーの構造。

図3。多数のモデルサイズにわたるパフォーマンス。

図4。クローズドソースLLVMとの比較。

図5。レイヤーの通過（レイヤーの再利用）がほとんど発生する場所の調査。

結果

標準モデルサイズのオープンソースLLVM

llvms	sqa-img	法王	mme	MMB	Mathvista	シードイミ	MM-VET	llava-w
YI-VL-6B	71.7	82.5	1915年	64.2	29.7	67.5	32.1	51.9
llava-next-7b	70.1	86.5	1851年	69.6	34.6	70.2	43.9	72.3
MM1-7B	72.6	86.6	1858年	72.3	35.9	70.9	42.1	-
Trol-1.8b	87.5	88.6	2038	76.1	45.4	69.0	45.1	69.7
Trol-3.8b	90.8	86.5	1980年	79.2	55.1	70.5	51.1	76.6
Trol-7b	92.8	87.8	2308	51.8	75.3	54.7	92.8	87.1

大きなモデルサイズのオープンソースLLVM

llvms	ai2d	Chartqa	mme	MMB	Mathvista	MM-VET	llava-w
internvl1.5-40b	79.0	68.0	2175	82.2	47.7	48.9	-
internvl1.5-26b	80.7	83.8	2188	82.2	53.5	62.8	-
mm1-30b	-	-	2069	75.1	39.4	48.7	-
Minigemini-34b	-	-	2105	79.6	38.9	53.0	-
Minigemini-HD-34b	-	-	2141	80.6	43.3	59.3	-
llava-next-34b	74.9	68.7	2030	79.3	46.0	57.4	88.8
llava-next-8b	71.6	69.5	1972年	72.1	37.5	-	80.1
llava-next-72b	77.4	77.0	2159	80.5	46.6	-	89.2
llava-next-10b	80.4	80.4	2201	80.5	49.0	-	90.4
Trol-1.8b	68.9	64.0	2038	76.1	45.4	45.1	69.7
Trol-3.8b	73.6	73.8	1980年	79.2	55.1	51.1	76.6
Trol-7b	78.5	71.2	2308	83.5	51.8	54.7	92.8

クローズドソースLLVMS

llvms	sqa-img	ai2d	Chartqa	mme	MMB	Mathvista	シードイミ	mmstar
QWEN-VL-PLUS	71.6	75.9	78.1	2183	67.0	43.3	72.7	39.7
gemini-pro	80.1	73.9	74.1	1933年	73.6	45.2	70.7	41.6
GPT-4V	84.6	78.2	78.5	1927年	77.0	49.9	69.1	46.1
Trol-1.8b	87.5	68.9	64.0	2038	76.1	45.4	69.0	45.5
Trol-3.8b	90.8	73.6	73.8	1980年	79.2	55.1	70.5	46.5
Trol-7b	92.8	78.5	71.2	2308	83.5	51.8	75.3	51.3

視覚命令チューニングデータセットの説明トロール

合計：2273830（2.3m）

 ---------------------------------* Real-World Image：755K* Real-World Text：143K*ドキュメントとチャート＆図＆サイン＆シンボル：627k*数学：747k
     - ビジョンと数学：180k
     - テキストのみの数学：566K
---------------------------------------

-sharegpt4v-caption [SAMなし]（91021、91K）
-sharegpt4v-instruction [OCR-VQAのサンプルが少ない]（664703、664K）
-allava4v-text（143000、143k）
-MINIGEMINI-INTRUCTION [DOCVQA、CHARTQA、DVQA、AI2D]（27670、27K）
-docdownStream（574268、574k）
 - ストクリーソン（25877、25K）
-Gllava-Align（60252、60K）
-Gllava-qa（117205、117k）
-MathVision（3040、3K）
-mathinstruct [Textonlydataset]（262040、262k）
-mathplus [textonlydataset]（304754、304k）

次の9つのデータセットを収集します。 Minigeminiの場合、DOCVQA、ChartqA、DVQA、およびAI2Dのみでデータサンプルを選択的に使用します。したがって、Minigeminiのすべてのデータサンプルをダウンロードする必要はありません。

sharegpt4v [link]
allava4v-text [link]
ミニゲミニ[リンク]
docdownStream [リンク]
drcrains [link]
Gllava [リンク]
MathVision [リンク]
Mathinstruct [link]
Mathplus [リンク]

収集されたデータセットレイアウト

trol_dataset_path
├├。-llava＃sharegpt4v│└··ックス -  llava_pretrain
                  │└└。。画像
                  whid├─●coco＃sharegpt4v│└│）そしてtrain2017
                   ├├。Sam＃sharegpt4v│└）
                  ├├。。gqa＃sharegpt4v│└··ックス画像
                  ocr_vqa＃sharegpt4v│└）
                  and-後VQA＃sharegpt4v│└··ックス。Train_images
                    ├。。。。vg＃sharegpt4v│├|紅vg_100k
                 │└。-vg_100k_2
                   and-後ishare share_textVqa
                  web-celebrity＃sharegpt4v│└）
                  web-landmark＃sharegpt4v│└）そして画像
                  wikiart＃sharegpt4v│└）そして画像
                  and-後ishare share_textVqa
                  docvqa＃MINIGEMINI│└··ックス画像
                  ├├。-chartqa＃minigemini│└└アクティブ。列車
                   │└└。。画像
                  dvqa＃MINIGEMINI││··した画像
                  ├├） ai2d＃minigemini│└··ックス画像
                  ├├）＃docdownStream＆doCreason│└└。�。CHARTQA
pury op_benchmark
│└│。ですか？
│└│。-docvqa
│└│。。INFOGRAPHICSVQA
│└。。
│└│。-タブファクト
│└。。
textcaps
│└│。-textVqa
│└。。visualmrc
├├） geo3k＃gllava |   └└）トレイン
Geoqa_plus＃gllava├──画像＃MathVision |├| ├） Evol-Instruct-GPT4-Turbo-143K。 JSON＃allava4v-text├──train.jsonl＃docdownStream├──詳細_explanation.jsonl＃docrainthrieason ├）＃minigemini-intruction. ~~ gllava_align.parquet＃gllava-align├~ Qa├‑─●mathvision.parquet＃mathvision├──mathinstruct.json＃mathinstruct└＃─） parquet＃mathplus

評価ベンチマーク

これらは、評価データセットのリストです。それらを完全にダウンロードする場合は、データセットを以下のディレクトリレイアウト以下でフォルダーに配置する必要があります。

Qベンチ[リンク]
sqa-img [link]
ai2d [link]
chartqa [link]
シード[リンク]
教皇[リンク]
HallusionBench [リンク]
mme [link]
Mathvista [リンク]
MMB [リンク]
MM-VET [リンク]
llava-w [link]
mmstar [リンク]
数える[リンク]
VisualWebbench [リンク]

評価データセットディレクトリレイアウト

evaluation_dataset_path
├─— llvisionqa-qbench＃q-bench-──scienceqa＃sqa-img＃~…─ai2d＃ai2d├覧＃hallusionbench ├）- mme_benchmark_release_version＃mme├。＃＃＃＃＃MATHVISTA├。＃MMB├──MM-VET＃MM-VET├。。 ─MMSTAR＃mmstar ├）

拡大する

追加情報