用于评估大型视觉模型的工具包。
•••••
英语| 简体中文| 日本语
? OC学习器•快速启动•数据集和模型•开发•目标•引用
? HF排行榜•?评估记录•? HF视频排行榜•?不和谐•报告
Vlmevalkit (Python软件包名称为VLMEVAL )是大型视觉模型(LVLM)的开源评估工具包。它可以在各种基准上对LVLM进行一定命令的评估,而没有多个存储库的数据准备大量工作。在VLMVALKIT中,我们采用所有LVLM的基于生成的评估,并提供具有精确匹配和基于LLM的答案提取获得的评估结果。
VLMEVALKIT_USE_MODELSCOPE 。通过设置此环境变量,您可以下载ModelsCope支持的视频基准python run.py --help以获取更多详细信息请参阅[QuickStart | 快速开始]以获取快速启动指南。
我们的官方多模式排行榜上的性能号可以从这里下载!
OpenVLM排行榜:下载所有详细结果。
支持的图像理解数据集
MCQ :多选择问题; Y/N :是或不问题; MTT :具有多转交谈的基准; MTI :具有多图像作为输入的基准。| 数据集 | 数据集名称(用于run.py) | 任务 | 数据集 | 数据集名称(用于run.py) | 任务 |
|---|---|---|---|---|---|
| MMBench系列: mmbench,mmbench-cn,ccbench | mmbench_dev_ [en/cn] mmbench_test_ [en/cn] mmbench_dev_ [en/cn] _v11 mmbench_test_ [en/cn] _v11 ccbench | MCQ | mmstar | mmstar | MCQ |
| 妈妈 | 妈妈 | 是/n | Seedbench系列 | SEEDBENCH_IMG SEEDBENCH2 SEEDBENCH2_PLUS | MCQ |
| MM-VET | mmvet | VQA | 嗯 | mmmu_ [dev_val/test] | MCQ |
| Mathvista | Mathvista_mini | VQA | Scienceqa_img | ScienceQA_ [Val/test] | MCQ |
| 可可标题 | COCO_VAL | 标题 | HallusionBench | HallusionBench | 是/n |
| OCRVQA * | OCRVQA_ [TESTCORE/TEST] | VQA | textvqa * | textvqa_val | VQA |
| ChartQa * | ChartQA_Test | VQA | AI2D | ai2d_ [test/test_no_mask] | MCQ |
| llavabench | llavabench | VQA | DOCVQA + | docvqa_ [val/test] | VQA |
| Infovqa + | infovqa_ [val/test] | VQA | Ocrbench | Ocrbench | VQA |
| REALWORLDQA | REALWORLDQA | MCQ | 教皇 | 教皇 | 是/n |
| Core -MM- | core_mm(MTI) | VQA | MMT板凳 | mmt-bench_ [val/all] mmt-bench_ [val/all] _mi | MCQ(MTI) |
| mllmguard- | mllmguard_ds | VQA | aesbench + | aesbench_ [val/test] | MCQ |
| vcr-wiki + | vcr_ [en/zh] _ [易于/硬] _ [all/500/100] | VQA | mmlongbench-doc + | mmlongbench_doc | VQA(MTI) |
| 眨 | 眨 | MCQ(MTI) | Mathvision + | Mathvision Mathvision_mini | VQA |
| MT-VQA | mtvqa_test | VQA | mmdu + | mmdu | VQA(MTT,MTI) |
| Q-Bench1 | Q-Bench1_ [val/test] | MCQ | A板凳 | a-Bench_ [val/test] | MCQ |
| 杜德+ | 伙计 | VQA(MTI) | SlideVQA + | slidevqa slidevqa_mini | VQA(MTI) |
| taskemanything imageqa随机+ | taskMeanything_v1_imageqa_random | MCQ | MMMB和多语言MMBench + | mmmb_ [ar/cn/en/pt/ru/tr] mmbench_dev_ [ar/cn/en/pt/ru/tr] mmmb mtl_mmbench_dev PS:MMMB&MTL_MMBENCH_DEV 是6个朗格的多合名 | MCQ |
| A-OKVQA + | A-OKVQA | MCQ | muirbench + | Muirbench | MCQ |
| gmai-mmbench + | gmai-mmbench_val | MCQ | tablevqabench + | tablevqabench | VQA |
| mme-realworld + | mme-realworld [-CN] MME-REALWORLD-LITE | MCQ | hrbench + | hrbench [4K/8K] | MCQ |
| 数学+ | Mathverse_mini Mathverse_mini_vision_only MATHVERSE_MINI_VISION_DOMINANT MATHVERSE_MINI_VISION_RINTGINES Mathverse_mini_text_lite MATHVERSE_MINI_TEXT_DOMINANT | VQA | 琥珀+ | 琥珀色 | 是/n |
| crpe + | crpe_ [存在/关系] | VQA | mmsearch | - | - |
| r板+ | r-Bench- [DIS/REF] | MCQ | WorldMedQA-V + | WorldMedQA-V | MCQ |
| GQA + | GQA_TESTDEV_BALENCAND | VQA | mia板+ | MIA板凳 | VQA |
| WIRDVISION + | 野外 | VQA | 奥林匹亚山脉+ | 奥林匹亚镇 | VQA |
| MM-MATH + | MM-MATH | VQA | Dynagtath | Dynagtath | VQA |
| mmgenbench- | mmgenbench检验 mmgenbench域 | - | Q -Spatial + | qspatial_ [plus/scannet] | VQA |
| Vizwiz + | Vizwiz | VQA |
*我们仅提供评估结果的子集,因为某些VLM在零弹位设置下未产生合理的结果
+评估结果尚不可用
-仅在VLMEVALKIT中支持推论(其中包括一些不包含地面真相答案的基准的TEST拆分)。
如果设置钥匙,则VLMVALKIT将使用法官LLM从输出中提取答案,否则它使用确切的匹配模式(在输出字符串中找到“是”,“否”,“ no”,“ a”,“ b”,“ C” ...)。确切的匹配只能应用于Yes-or-NO任务和多项选择任务。
支持的视频理解数据集
| 数据集 | 数据集名称(用于run.py) | 任务 | 数据集 | 数据集名称(用于run.py) | 任务 |
|---|---|---|---|---|---|
| mmbench-video | mmbench-video | VQA | 视频 - 梅 | 视频 - 梅 | MCQ |
| mvbench | mvBench/mvbench_mp4 | MCQ | MLVU | MLVU | McQ&VQA |
| tempcompass | tempcompass | mcq&y/n&标题 | LongvideObench | LongvideObench | MCQ |
支持的API模型
| GPT-4V(20231106,20240409) ? | GPT-4O ? | Gemini-1.0-Pro ? | 双子座1.5-Pro ? | 步骤1V ? |
|---|---|---|---|---|
| reka- [edge / flash / core] ? | qwen-vl- [plus / max] ? qwen-vl- [plus / max] -0809 ? | claude3- [haiku / sonnet / opus] ? | GLM-4V ? | 恩恩? |
| Claude3.5-Sonnet(20240620,20241022) ? | GPT-4O-Mini ? | yi-vision ? | Hunyuan-Vision ? | bluelm-V ? |
| 电信? |
支持的Pytorch / HF型号
| IDEFICS- [9b/80b/v2-8b/v3-8b] - 教室? | 指令 - [7b/13b] | llava- [v1-7b/v1.5-7b/v1.5-13b] | Minigpt-4- [V1-7B/V1-13B/V2-7B] |
|---|---|---|---|
| mplug-owl [2/3] | OpenFlamingo-V2 | Pandagpt-13b | qwen-vl ? qwen-vl-chat ? |
| VisualGLM-6B ? | internlm-xcomposer- [1/2] ? | sharegpt4v- [7b/13b] ? | Transcore-M |
| llava(Xtuner) ? | cogvlm- [CHAT/LLAMA3] ? | sharecaptioner ? | cogvlm-grounder-Generalist ? |
| 猴子? 猴子? | emu2-chat ? | yi-vl- [6b/34b] | mmalaya ? |
| internlm-xcomposer-2.5 ? | minicpm- [v1/v2/v2.5/v2.6] ? | Omnilmm-12B | internvl-chat- [V1-1/V1-2/V1-5/V2] ? |
| DeepSeek-vl | llava-next ? | Bunny-Lalama3 ? | XVERSE-V-13B |
| paligemma-3b ? | 360VL-70B ? | phi-3 vision ? Phi-3.5-Vision ? | wemm ? |
| GLM-4V-9B ? | Cambrian- [8b/13b/34b] | llava-next- [QWEN-32B] | Chameleon- [7b/30b] ? |
| Video-llava-7b- [HF] ? | Vila1.5- [3b/8b/13b/40b] | OVIS [1.5-LLAMA3-8B/1.5-GEMMA2-9B/1.6-GEMMA2-GEMMA2-9B/1.6-LLAMA3.2-3B/1.6-GEMMA2-GEMMA2-27B] ? | Mantis-8b- [siglip-llama3/clip-llama3/idefics2/fuyu] |
| Llama-3-MixSensev1_1 ? | 鹦鹉-7b ? | omchat-v2.0-13b-sinlge-beta ? | 视频聊天? |
| chat-univi-7b [-v1.5] ? | Llama-VID-7B ? | Videochat2-HD ? | pllava- [7b/13b/34b] ? |
| rbdash_72b ? | xgen-mm-phi3- [Interleave/dpo] -r-v1.5 ? | qwen2-vl- [2b/7b/72b] ? | Slime_ [7b/8b/13b] |
| eagle-x4- [8b/13b] ?, eagle-x5- [7b/13b/34b] ? | moondream1 ?, moondream2 ? | Xinyuan-Vl-2b-r-Instruct ? | Llama-3.2- [11b/90b] -Vision-Instruct ? |
| kosmos2 ? | h2ovl-mississippi- [0.8b/2b] ? | ** pixtral-12b ** | ** falcon2-vlm-11b **? |
| ** minimonkey **? | ** llava-onevision **? | ** llava-video **? | ** aquila-vl-2b **? |
| Mini-Internvl-Chat- [2b/4b] -v1-5 ? | Intervl2系列? | ** janus-1.3b **? | ** molmoe-1b/molmo-7b/molmo-72b **? |
| **点 - [yi-1.5-9b/qwen-2.5-7b] **? | ** nvlm **? | ** Vintern **? | **咏叹调**? |
:支持多个图像作为输入。
?:可以不用任何其他配置/操作而使用型号。
?:支持视频作为输入。
变形金刚版本建议:
请注意,某些VLM可能无法在某些变压器版本下运行,我们建议使用以下设置来评估每个VLM:
Qwen series , Monkey series ,Interlm transformers==4.33.0 InternLM-XComposer Series , mPLUG-Owl2 , OpenFlamingo v2 , IDEFICS series , VisualGLM ,Mmalaya, MMAlaya , ShareCaptioner ,Minigpt-4系列, MiniGPT-4 series , InstructBLIP series , PandaGPT , VXVERSE 。transformers==4.36.2 for : Moondream1 。LLaVA series , ShareGPT4V series , TransCore-M , LLaVA (XTuner) , CogVLM Series , EMU2 Series , Yi-VL Series , MiniCPM-[V1/V2] , OmniLMM-12B transformers==4.37.0 DeepSeek-VL series , InternVL series Cambrian Series ,cambrian, VILA Series Llama-3-MixSenseV1_1 , Parrot-7B , PLLaVA Series 。transformers==4.40.0 for : IDEFICS2 , Bunny-Llama3 , MiniCPM-Llama3-V2.5 360VL-70B , Phi-3-Vision , WeMM 。transformers==4.44.0 for : Moondream2 , H2OVL series 。transformers==4.45.0 for : Aria 。transformers==latest : LLaVA-Next series , PaliGemma-3B , Chameleon series , Video-LLaVA-7B-HF , Ovis series Mantis series MiniCPM-V2.6 , OmChat-v2.0-13B-sinlge-beta ,IDEFICS-3,IDEFICS-3,IDEFICS Idefics-3 , GLM-4v-9B ,VIDEO-CHAM_12-2-2-2-HD 2-HD 2-HD, RBDash_72b Llama-3.2 series , VideoChat2-HD ,RD rd rd rd rd rd rd rd rd rd rd rd d. , Kosmos series 。Torchvision版本建议:
请注意,某些VLM可能无法在某些火车版本下运行,我们建议使用以下设置来评估每个VLM:
torchvision>=0.16 for : Moondream series和Ariaflash-attn版本建议:
请注意,某些VLM可能无法在某些闪存发音版本下运行,我们建议使用以下设置来评估每个VLM:
pip install flash-attn --no-build-isolation : Aria # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret ) # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret ) # There are two apples in the provided images. 要开发自定义基准,VLM或简单地向VLMValkit贡献其他代码,请参阅[development_guide | 开发指南]。
要求捐款
促进社区的贡献并分享相应的信用(在下一个报告更新中):
这是我们根据记录策划的贡献列表。
该代码库设计为:
generate_inner()函数,所有其他工作负载(数据下载,数据预处理,预测推断,度量计算)都由Codebase处理。该代码库的设计不是:
如果您发现这项工作有帮助,请考虑出演?这个存储库。感谢您的支持!
如果您在研究中使用vlmevalkit或希望参考已发布的OpenSource评估结果,请使用以下Bibtex条目和与您使用的特定VLM /基准测试相对应的Bibtex条目。
@misc { duan2024vlmevalkit ,
title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
year = { 2024 } ,
eprint = { 2407.11691 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2407.11691 } ,
}回到顶部