用於評估大型視覺模型的工具包。
•••••
英語| 簡體中文| 日本語
? OC學習器•快速啟動•數據集和模型•開發•目標•引用
? HF排行榜•?評估記錄•? HF視頻排行榜•?不和諧•報告
Vlmevalkit (Python軟件包名稱為VLMEVAL )是大型視覺模型(LVLM)的開源評估工具包。它可以在各種基准上對LVLM進行一定命令的評估,而沒有多個存儲庫的數據準備大量工作。在VLMVALKIT中,我們採用所有LVLM的基於生成的評估,並提供具有精確匹配和基於LLM的答案提取獲得的評估結果。
VLMEVALKIT_USE_MODELSCOPE 。通過設置此環境變量,您可以下載ModelsCope支持的視頻基準python run.py --help以獲取更多詳細信息請參閱[QuickStart | 快速開始]以獲取快速啟動指南。
我們的官方多模式排行榜上的性能號可以從這裡下載!
OpenVLM排行榜:下載所有詳細結果。
支持的圖像理解數據集
MCQ :多選擇問題; Y/N :是或不問題; MTT :具有多轉交談的基準; MTI :具有多圖像作為輸入的基準。| 數據集 | 數據集名稱(用於run.py) | 任務 | 數據集 | 數據集名稱(用於run.py) | 任務 |
|---|---|---|---|---|---|
| MMBench系列: mmbench,mmbench-cn,ccbench | mmbench_dev_ [en/cn] mmbench_test_ [en/cn] mmbench_dev_ [en/cn] _v11 mmbench_test_ [en/cn] _v11 ccbench | MCQ | mmstar | mmstar | MCQ |
| 媽媽 | 媽媽 | 是/n | Seedbench系列 | SEEDBENCH_IMG SEEDBENCH2 SEEDBENCH2_PLUS | MCQ |
| MM-VET | mmvet | VQA | 嗯 | mmmu_ [dev_val/test] | MCQ |
| Mathvista | Mathvista_mini | VQA | Scienceqa_img | ScienceQA_ [Val/test] | MCQ |
| 可可標題 | COCO_VAL | 標題 | HallusionBench | HallusionBench | 是/n |
| OCRVQA * | OCRVQA_ [TESTCORE/TEST] | VQA | textvqa * | textvqa_val | VQA |
| ChartQa * | ChartQA_Test | VQA | AI2D | ai2d_ [test/test_no_mask] | MCQ |
| llavabench | llavabench | VQA | DOCVQA + | docvqa_ [val/test] | VQA |
| Infovqa + | infovqa_ [val/test] | VQA | Ocrbench | Ocrbench | VQA |
| REALWORLDQA | REALWORLDQA | MCQ | 教皇 | 教皇 | 是/n |
| Core -MM- | core_mm(MTI) | VQA | MMT板凳 | mmt-bench_ [val/all] mmt-bench_ [val/all] _mi | MCQ(MTI) |
| mllmguard- | mllmguard_ds | VQA | aesbench + | aesbench_ [val/test] | MCQ |
| vcr-wiki + | vcr_ [en/zh] _ [易於/硬] _ [all/500/100] | VQA | mmlongbench-doc + | mmlongbench_doc | VQA(MTI) |
| 眨 | 眨 | MCQ(MTI) | Mathvision + | Mathvision Mathvision_mini | VQA |
| MT-VQA | mtvqa_test | VQA | mmdu + | mmdu | VQA(MTT,MTI) |
| Q-Bench1 | Q-Bench1_ [val/test] | MCQ | A板凳 | a-Bench_ [val/test] | MCQ |
| 杜德+ | 伙計 | VQA(MTI) | SlideVQA + | slidevqa slidevqa_mini | VQA(MTI) |
| taskemanything imageqa隨機+ | taskMeanything_v1_imageqa_random | MCQ | MMMB和多語言MMBench + | mmmb_ [ar/cn/en/pt/ru/tr] mmbench_dev_ [ar/cn/en/pt/ru/tr] mmmb mtl_mmbench_dev PS:MMMB&MTL_MMBENCH_DEV 是6個朗格的多合名 | MCQ |
| A-OKVQA + | A-OKVQA | MCQ | muirbench + | Muirbench | MCQ |
| gmai-mmbench + | gmai-mmbench_val | MCQ | tablevqabench + | tablevqabench | VQA |
| mme-realworld + | mme-realworld [-CN] MME-REALWORLD-LITE | MCQ | hrbench + | hrbench [4K/8K] | MCQ |
| 數學+ | Mathverse_mini Mathverse_mini_vision_only MATHVERSE_MINI_VISION_DOMINANT MATHVERSE_MINI_VISION_RINTGINES Mathverse_mini_text_lite MATHVERSE_MINI_TEXT_DOMINANT | VQA | 琥珀+ | 琥珀色 | 是/n |
| crpe + | crpe_ [存在/關係] | VQA | mmsearch | - | - |
| r板+ | r-Bench- [DIS/REF] | MCQ | WorldMedQA-V + | WorldMedQA-V | MCQ |
| GQA + | GQA_TESTDEV_BALENCAND | VQA | mia板+ | MIA板凳 | VQA |
| WIRDVISION + | 野外 | VQA | 奧林匹亞山脈+ | 奧林匹亞鎮 | VQA |
| MM-MATH + | MM-MATH | VQA | Dynagtath | Dynagtath | VQA |
| mmgenbench- | mmgenbench檢驗 mmgenbench域 | - | Q -Spatial + | qspatial_ [plus/scannet] | VQA |
| Vizwiz + | Vizwiz | VQA |
*我們僅提供評估結果的子集,因為某些VLM在零彈位設置下未產生合理的結果
+評估結果尚不可用
-僅在VLMEVALKIT中支持推論(其中包括一些不包含地面真相答案的基準的TEST拆分)。
如果設置鑰匙,則VLMVALKIT將使用法官LLM從輸出中提取答案,否則它使用確切的匹配模式(在輸出字符串中找到“是”,“否”,“ no”,“ a”,“ b”,“ C” ...)。確切的匹配只能應用於Yes-or-NO任務和多項選擇任務。
支持的視頻理解數據集
| 數據集 | 數據集名稱(用於run.py) | 任務 | 數據集 | 數據集名稱(用於run.py) | 任務 |
|---|---|---|---|---|---|
| mmbench-video | mmbench-video | VQA | 視頻 - 梅 | 視頻 - 梅 | MCQ |
| mvbench | mvBench/mvbench_mp4 | MCQ | MLVU | MLVU | McQ&VQA |
| tempcompass | tempcompass | mcq&y/n&標題 | LongvideObench | LongvideObench | MCQ |
支持的API模型
| GPT-4V(20231106,20240409) ? | GPT-4O ? | Gemini-1.0-Pro ? | 雙子座1.5-Pro ? | 步驟1V ? |
|---|---|---|---|---|
| reka- [edge / flash / core] ? | qwen-vl- [plus / max] ? qwen-vl- [plus / max] -0809 ? | claude3- [haiku / sonnet / opus] ? | GLM-4V ? | 恩恩? |
| Claude3.5-Sonnet(20240620,20241022) ? | GPT-4O-Mini ? | yi-vision ? | Hunyuan-Vision ? | bluelm-V ? |
| 電信? |
支持的Pytorch / HF型號
| IDEFICS- [9b/80b/v2-8b/v3-8b] - 教室? | 指令 - [7b/13b] | llava- [v1-7b/v1.5-7b/v1.5-13b] | Minigpt-4- [V1-7B/V1-13B/V2-7B] |
|---|---|---|---|
| mplug-owl [2/3] | OpenFlamingo-V2 | Pandagpt-13b | qwen-vl ? qwen-vl-chat ? |
| VisualGLM-6B ? | internlm-xcomposer- [1/2] ? | sharegpt4v- [7b/13b] ? | Transcore-M |
| llava(Xtuner) ? | cogvlm- [CHAT/LLAMA3] ? | sharecaptioner ? | cogvlm-grounder-Generalist ? |
| 猴子? 猴子? | emu2-chat ? | yi-vl- [6b/34b] | mmalaya ? |
| internlm-xcomposer-2.5 ? | minicpm- [v1/v2/v2.5/v2.6] ? | Omnilmm-12B | internvl-chat- [V1-1/V1-2/V1-5/V2] ? |
| DeepSeek-vl | llava-next ? | Bunny-Lalama3 ? | XVERSE-V-13B |
| paligemma-3b ? | 360VL-70B ? | phi-3 vision ? Phi-3.5-Vision ? | wemm ? |
| GLM-4V-9B ? | Cambrian- [8b/13b/34b] | llava-next- [QWEN-32B] | Chameleon- [7b/30b] ? |
| Video-llava-7b- [HF] ? | Vila1.5- [3b/8b/13b/40b] | OVIS [1.5-LLAMA3-8B/1.5-GEMMA2-9B/1.6-GEMMA2-GEMMA2-9B/1.6-LLAMA3.2-3B/1.6-GEMMA2-GEMMA2-27B] ? | Mantis-8b- [siglip-llama3/clip-llama3/idefics2/fuyu] |
| Llama-3-MixSensev1_1 ? | 鸚鵡-7b ? | omchat-v2.0-13b-sinlge-beta ? | 視訊通訊? |
| chat-univi-7b [-v1.5] ? | Llama-VID-7B ? | Videochat2-HD ? | pllava- [7b/13b/34b] ? |
| rbdash_72b ? | xgen-mm-phi3- [Interleave/dpo] -r-v1.5 ? | qwen2-vl- [2b/7b/72b] ? | Slime_ [7b/8b/13b] |
| eagle-x4- [8b/13b] ?, eagle-x5- [7b/13b/34b] ? | moondream1 ?, moondream2 ? | Xinyuan-Vl-2b-r-Instruct ? | Llama-3.2- [11b/90b] -Vision-Instruct ? |
| kosmos2 ? | h2ovl-mississippi- [0.8b/2b] ? | ** pixtral-12b ** | ** falcon2-vlm-11b **? |
| ** minimonkey **? | ** llava-onevision **? | ** llava-video **? | ** aquila-vl-2b **? |
| Mini-Internvl-Chat- [2b/4b] -v1-5 ? | Intervl2系列? | ** janus-1.3b **? | ** molmoe-1b/molmo-7b/molmo-72b **? |
| **點 - [yi-1.5-9b/qwen-2.5-7b] **? | ** nvlm **? | ** Vintern **? | **詠嘆調**? |
:支持多個圖像作為輸入。
?:可以不用任何其他配置/操作而使用型號。
?:支持視頻作為輸入。
變形金剛版本建議:
請注意,某些VLM可能無法在某些變壓器版本下運行,我們建議使用以下設置來評估每個VLM:
Qwen series , Monkey series ,Interlm transformers==4.33.0 InternLM-XComposer Series , mPLUG-Owl2 , OpenFlamingo v2 , IDEFICS series , VisualGLM ,Mmalaya, MMAlaya , ShareCaptioner ,Minigpt-4系列, MiniGPT-4 series , InstructBLIP series , PandaGPT , VXVERSE 。transformers==4.36.2 for : Moondream1 。transformers==4.37.0 for : LLaVA series , ShareGPT4V series , TransCore-M , LLaVA (XTuner) OmniLMM-12B CogVLM Series , EMU2 Series , Yi-VL Series DeepSeek-VL series Cambrian Series InternVL series VILA Series V1 Llama-3-MixSenseV1_1 MiniCPM-[V1/V2] Parrot-7B PLLaVA Series 。transformers==4.40.0 for : IDEFICS2 , Bunny-Llama3 , MiniCPM-Llama3-V2.5 360VL-70B , Phi-3-Vision , WeMM 。transformers==4.44.0 for : Moondream2 , H2OVL series 。transformers==4.45.0 for : Aria 。transformers==latest llava LLaVA-Next series , PaliGemma-3B , Chameleon series , Video-LLaVA-7B-HF , Ovis series Mantis series MiniCPM-V2.6 , OmChat-v2.0-13B-sinlge-beta , Idefics-3 , VideoChat2-HD GLM-4v-9B , RBDash_72b Llama-3.2 series Kosmos series , 。Torchvision版本建議:
請注意,某些VLM可能無法在某些火車版本下運行,我們建議使用以下設置來評估每個VLM:
torchvision>=0.16 for : Moondream series和Ariaflash-attn版本建議:
請注意,某些VLM可能無法在某些閃存發音版本下運行,我們建議使用以下設置來評估每個VLM:
pip install flash-attn --no-build-isolation : Aria # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret ) # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret ) # There are two apples in the provided images. 要開發自定義基準,VLM或簡單地向VLMValkit貢獻其他代碼,請參閱[development_guide | 開髮指南]。
要求捐款
促進社區的貢獻並分享相應的信用(在下一個報告更新中):
這是我們根據記錄策劃的貢獻列表。
該代碼庫設計為:
generate_inner()函數,所有其他工作負載(數據下載,數據預處理,預測推斷,度量計算)都由Codebase處理。該代碼庫的設計不是:
如果您發現這項工作有幫助,請考慮出演?這個存儲庫。感謝您的支持!
如果您在研究中使用vlmevalkit或希望參考已發布的OpenSource評估結果,請使用以下Bibtex條目和與您使用的特定VLM /基準測試相對應的Bibtex條目。
@misc { duan2024vlmevalkit ,
title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
year = { 2024 } ,
eprint = { 2407.11691 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2407.11691 } ,
}回到頂部