VLMEvalKit下载 - VLMEvalKit源代码下载

VLMEvalKit

其他源码

valKit v0.1

下载

用于评估大型视觉模型的工具包。

•••••

英语| 简体中文| 日本语

？ OC学习器•快速启动•数据集和模型•开发•目标•引用

？ HF排行榜•？评估记录•？ HF视频排行榜•？不和谐•报告

Vlmevalkit （Python软件包名称为VLMEVAL ）是大型视觉模型（LVLM）的开源评估工具包。它可以在各种基准上对LVLM进行一定命令的评估，而没有多个存储库的数据准备大量工作。在VLMVALKIT中，我们采用所有LVLM的基于生成的评估，并提供具有精确匹配和基于LLM的答案提取获得的评估结果。

？消息

[2024-11-26]支持OVIS1.6-GEMMA2-27B，这要归功于Runninglsy
[2024-11-25]创建一个新的标志VLMEVALKIT_USE_MODELSCOPE 。通过设置此环境变量，您可以下载ModelsCope支持的视频基准
[2024-11-25]支持Vizwiz基准
[2024-11-22]支持mmgenbench的推断，感谢Lerogo
[2024-11-22]支持Dyngath ，这是一种多模式数学基准，该基准包括501个种子问题和基于随机种子生成的10种变体。基准可用于测量在多模式数学求解中MLLM的鲁棒性
[2024-11-21]集成了一个新的配置系统，以启用更灵活的评估设置。检查文档或运行python run.py --help以获取更多详细信息
[2024-11-21]支持Q-Spatial ，这是定量空间推理的多模式基准（确定尺寸 /距离，例如），感谢Andrewliao11提供正式支持
[2024-11-21]支持MM-MATH ，这是一种新的多模式数学基准，包括〜6K中学多模式推理数学问题。 GPT-4O-20240806 ACHIECES在此基准上的精度为22.5％
[2024-11-16]支持OlympiaDbench ，这是一种包括奥林匹克级数学和物理问题的新的多模式基准
[2024-11-16]支持Wildvision ，这是一种新的主观多模式基准，该基准来自多模式竞技场数据
[2024-11-13]支持MIA-BENCH ，这是一种多模式指令以下基准测试

Quickstart

请参阅[QuickStart | 快速开始]以获取快速启动指南。

数据集，模型和评估结果

评估结果

我们的官方多模式排行榜上的性能号可以从这里下载！

OpenVLM排行榜：下载所有详细结果。

支持的基准

支持的图像理解数据集

默认情况下，所有评估结果均在OpenVLM排行榜中呈现。
ABBRS： MCQ ：多选择问题； Y/N ：是或不问题； MTT ：具有多转交谈的基准； MTI ：具有多图像作为输入的基准。

数据集	数据集名称（用于run.py）	任务	数据集	数据集名称（用于run.py）	任务
MMBench系列： mmbench，mmbench-cn，ccbench	mmbench_dev_ [en/cn] mmbench_test_ [en/cn] mmbench_dev_ [en/cn] _v11 mmbench_test_ [en/cn] _v11 ccbench	MCQ	mmstar	mmstar	MCQ
妈妈	妈妈	是/n	Seedbench系列	SEEDBENCH_IMG SEEDBENCH2 SEEDBENCH2_PLUS	MCQ
MM-VET	mmvet	VQA	嗯	mmmu_ [dev_val/test]	MCQ
Mathvista	Mathvista_mini	VQA	Scienceqa_img	ScienceQA_ [Val/test]	MCQ
可可标题	COCO_VAL	标题	HallusionBench	HallusionBench	是/n
OCRVQA *	OCRVQA_ [TESTCORE/TEST]	VQA	textvqa *	textvqa_val	VQA
ChartQa *	ChartQA_Test	VQA	AI2D	ai2d_ [test/test_no_mask]	MCQ
llavabench	llavabench	VQA	DOCVQA +	docvqa_ [val/test]	VQA
Infovqa +	infovqa_ [val/test]	VQA	Ocrbench	Ocrbench	VQA
REALWORLDQA	REALWORLDQA	MCQ	教皇	教皇	是/n
Core -MM-	core_mm（MTI）	VQA	MMT板凳	mmt-bench_ [val/all] mmt-bench_ [val/all] _mi	MCQ（MTI）
mllmguard-	mllmguard_ds	VQA	aesbench +	aesbench_ [val/test]	MCQ
vcr-wiki +	vcr_ [en/zh] _ [易于/硬] _ [all/500/100]	VQA	mmlongbench-doc +	mmlongbench_doc	VQA（MTI）
眨	眨	MCQ（MTI）	Mathvision +	Mathvision Mathvision_mini	VQA
MT-VQA	mtvqa_test	VQA	mmdu +	mmdu	VQA（MTT，MTI）
Q-Bench1	Q-Bench1_ [val/test]	MCQ	A板凳	a-Bench_ [val/test]	MCQ
杜德+	伙计	VQA（MTI）	SlideVQA +	slidevqa slidevqa_mini	VQA（MTI）
taskemanything imageqa随机+	taskMeanything_v1_imageqa_random	MCQ	MMMB和多语言MMBench +	mmmb_ [ar/cn/en/pt/ru/tr] mmbench_dev_ [ar/cn/en/pt/ru/tr] mmmb mtl_mmbench_dev PS：MMMB＆MTL_MMBENCH_DEV 是6个朗格的多合名	MCQ
A-OKVQA +	A-OKVQA	MCQ	muirbench +	Muirbench	MCQ
gmai-mmbench +	gmai-mmbench_val	MCQ	tablevqabench +	tablevqabench	VQA
mme-realworld +	mme-realworld [-CN] MME-REALWORLD-LITE	MCQ	hrbench +	hrbench [4K/8K]	MCQ
数学+	Mathverse_mini Mathverse_mini_vision_only MATHVERSE_MINI_VISION_DOMINANT MATHVERSE_MINI_VISION_RINTGINES Mathverse_mini_text_lite MATHVERSE_MINI_TEXT_DOMINANT	VQA	琥珀+	琥珀色	是/n
crpe +	crpe_ [存在/关系]	VQA	mmsearch $$^1 $$	-	-
r板+	r-Bench- [DIS/REF]	MCQ	WorldMedQA-V +	WorldMedQA-V	MCQ
GQA +	GQA_TESTDEV_BALENCAND	VQA	mia板+	MIA板凳	VQA
WIRDVISION +	野外	VQA	奥林匹亚山脉+	奥林匹亚镇	VQA
MM-MATH +	MM-MATH	VQA	Dynagtath	Dynagtath	VQA
mmgenbench-	mmgenbench检验 mmgenbench域	-	Q -Spatial +	qspatial_ [plus/scannet]	VQA
Vizwiz +	Vizwiz	VQA

*我们仅提供评估结果的子集，因为某些VLM在零弹位设置下未产生合理的结果

+评估结果尚不可用

-仅在VLMEVALKIT中支持推论（其中包括一些不包含地面真相答案的基准的TEST拆分）。

$$^1 $$ Vlmevalkit集成在其官方存储库中。

如果设置钥匙，则VLMVALKIT将使用法官LLM从输出中提取答案，否则它使用确切的匹配模式（在输出字符串中找到“是”，“否”，“ no”，“ a”，“ b”，“ C” ...）。确切的匹配只能应用于Yes-or-NO任务和多项选择任务。

支持的视频理解数据集

数据集	数据集名称（用于run.py）	任务	数据集	数据集名称（用于run.py）	任务
mmbench-video	mmbench-video	VQA	视频 - 梅	视频 - 梅	MCQ
mvbench	mvBench/mvbench_mp4	MCQ	MLVU	MLVU	McQ＆VQA
tempcompass	tempcompass	mcq＆y/n＆标题	LongvideObench	LongvideObench	MCQ

支持的模型

支持的API模型

GPT-4V（20231106，20240409）？	GPT-4O ？	Gemini-1.0-Pro ？	双子座1.5-Pro ？	步骤1V ？
reka- [edge / flash / core] ？	qwen-vl- [plus / max] ？ qwen-vl- [plus / max] -0809 ？	claude3- [haiku / sonnet / opus] ？	GLM-4V ？	恩恩？
Claude3.5-Sonnet（20240620，20241022）？	GPT-4O-Mini ？	yi-vision ？	Hunyuan-Vision ？	bluelm-V ？
电信？

支持的Pytorch / HF型号

IDEFICS- [9b/80b/v2-8b/v3-8b] - 教室？	指令 - [7b/13b]	llava- [v1-7b/v1.5-7b/v1.5-13b]	Minigpt-4- [V1-7B/V1-13B/V2-7B]
mplug-owl [2/3]	OpenFlamingo-V2	Pandagpt-13b	qwen-vl ？ qwen-vl-chat ？
VisualGLM-6B ？	internlm-xcomposer- [1/2] ？	sharegpt4v- [7b/13b] ？	Transcore-M
llava（Xtuner）？	cogvlm- [CHAT/LLAMA3] ？	sharecaptioner ？	cogvlm-grounder-Generalist ？
猴子？猴子？	emu2-chat ？	yi-vl- [6b/34b]	mmalaya ？
internlm-xcomposer-2.5 ？	minicpm- [v1/v2/v2.5/v2.6] ？	Omnilmm-12B	internvl-chat- [V1-1/V1-2/V1-5/V2] ？
DeepSeek-vl	llava-next ？	Bunny-Lalama3 ？	XVERSE-V-13B
paligemma-3b ？	360VL-70B ？	phi-3 vision ？ Phi-3.5-Vision ？	wemm ？
GLM-4V-9B ？	Cambrian- [8b/13b/34b]	llava-next- [QWEN-32B]	Chameleon- [7b/30b] ？
Video-llava-7b- [HF] ？	Vila1.5- [3b/8b/13b/40b]	OVIS [1.5-LLAMA3-8B/1.5-GEMMA2-9B/1.6-GEMMA2-GEMMA2-9B/1.6-LLAMA3.2-3B/1.6-GEMMA2-GEMMA2-27B] ？	Mantis-8b- [siglip-llama3/clip-llama3/idefics2/fuyu]
Llama-3-MixSensev1_1 ？	鹦鹉-7b ？	omchat-v2.0-13b-sinlge-beta ？	视频聊天？
chat-univi-7b [-v1.5] ？	Llama-VID-7B ？	Videochat2-HD ？	pllava- [7b/13b/34b] ？
rbdash_72b ？	xgen-mm-phi3- [Interleave/dpo] -r-v1.5 ？	qwen2-vl- [2b/7b/72b] ？	Slime_ [7b/8b/13b]
eagle-x4- [8b/13b] ？， eagle-x5- [7b/13b/34b] ？	moondream1 ？， moondream2 ？	Xinyuan-Vl-2b-r-Instruct ？	Llama-3.2- [11b/90b] -Vision-Instruct ？
kosmos2 ？	h2ovl-mississippi- [0.8b/2b] ？	pixtral-12b	falcon2-vlm-11b ？
minimonkey ？	llava-onevision ？	llava-video ？	aquila-vl-2b ？
Mini-Internvl-Chat- [2b/4b] -v1-5 ？	Intervl2系列？	janus-1.3b ？	molmoe-1b/molmo-7b/molmo-72b ？
点 - [yi-1.5-9b/qwen-2.5-7b] ？	nvlm ？	Vintern ？	咏叹调？

：支持多个图像作为输入。

？：可以不用任何其他配置/操作而使用型号。

？：支持视频作为输入。

变形金刚版本建议：

请注意，某些VLM可能无法在某些变压器版本下运行，我们建议使用以下设置来评估每个VLM：

请使用： Qwen series ， Monkey series ，Interlm transformers==4.33.0 InternLM-XComposer Series ， mPLUG-Owl2 ， OpenFlamingo v2 ， IDEFICS series ， VisualGLM ，Mmalaya， MMAlaya ， ShareCaptioner ，Minigpt-4系列， MiniGPT-4 series ， InstructBLIP series ， PandaGPT ， VXVERSE 。
请使用transformers==4.36.2 for ： Moondream1 。
请使用： LLaVA series ， ShareGPT4V series ， TransCore-M ， LLaVA (XTuner) ， CogVLM Series ， EMU2 Series ， Yi-VL Series ， MiniCPM-[V1/V2] ， OmniLMM-12B transformers==4.37.0 DeepSeek-VL series ， InternVL series Cambrian Series ，cambrian， VILA Series Llama-3-MixSenseV1_1 ， Parrot-7B ， PLLaVA Series 。
请使用transformers==4.40.0 for ： IDEFICS2 ， Bunny-Llama3 ， MiniCPM-Llama3-V2.5 360VL-70B ， Phi-3-Vision ， WeMM 。
请使用transformers==4.44.0 for ： Moondream2 ， H2OVL series 。
请使用transformers==4.45.0 for ： Aria 。
请使用transformers==latest ： LLaVA-Next series ， PaliGemma-3B ， Chameleon series ， Video-LLaVA-7B-HF ， Ovis series Mantis series MiniCPM-V2.6 ， OmChat-v2.0-13B-sinlge-beta ，IDEFICS-3，IDEFICS-3，IDEFICS Idefics-3 ， GLM-4v-9B ，VIDEO-CHAM_12-2-2-2-HD 2-HD 2-HD， RBDash_72b Llama-3.2 series ， VideoChat2-HD ，RD rd rd rd rd rd rd rd rd rd rd rd d. ， Kosmos series 。

Torchvision版本建议：

请注意，某些VLM可能无法在某些火车版本下运行，我们建议使用以下设置来评估每个VLM：

请使用torchvision>=0.16 for ： Moondream series和Aria

flash-attn版本建议：

请注意，某些VLM可能无法在某些闪存发音版本下运行，我们建议使用以下设置来评估每个VLM：

请使用pip install flash-attn --no-build-isolation ： Aria

 # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret )  # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret )  # There are two apples in the provided images.

开发指南

要开发自定义基准，VLM或简单地向VLMValkit贡献其他代码，请参阅[development_guide | 开发指南]。

要求捐款

促进社区的贡献并分享相应的信用（在下一个报告更新中）：

报告将在报告中得到确认。
具有3个或更多主要贡献的贡献者（实施MLLM，基准或主要功能）可以加入VLMEVALKIT ARXIV技术报告的作者列表。合格的贡献者可以在VLMValkit Discord渠道中创建问题或DM Kennyutc。

这是我们根据记录策划的贡献列表。

Vlmevalkit的目标

该代码库设计为：

提供易于使用的OpenSource评估工具包，以使研究人员和开发人员评估现有LVLMS并使评估结果易于复制。
使VLM开发人员可以轻松评估自己的模型。为了评估多个受支持的基准测试的VLM，只需要实现单个generate_inner()函数，所有其他工作负载（数据下载，数据预处理，预测推断，度量计算）都由Codebase处理。

该代码库的设计不是：

复制所有第三方基准的原始论文中报告的确切精度编号。原因可能是两个方面：
1. VLMevalkit使用所有VLMS基于生成的评估（并且可以选择基于LLM的答案提取）。同时，某些基准可能使用不同的方法（Seedbench使用基于PPL的评估，例如）。对于这些基准测试，我们比较了相应结果中的两个分数。我们鼓励开发人员支持代码库中的其他评估范例。
2. 默认情况下，我们使用相同的提示模板供所有VLMS在基准测试上进行评估。同时，某些VLM可能具有其特定的及时模板（目前有些可能没有代码库涵盖）。如果目前未涵盖的话，我们鼓励VLM开发人员在VLMEVALKIT中实施自己的及时模板。这将有助于提高可重复性。

引用

如果您发现这项工作有帮助，请考虑出演？这个存储库。感谢您的支持！

如果您在研究中使用vlmevalkit或希望参考已发布的OpenSource评估结果，请使用以下Bibtex条目和与您使用的特定VLM /基准测试相对应的Bibtex条目。

 @misc { duan2024vlmevalkit ,
      title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
      author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
      year = { 2024 } ,
      eprint = { 2407.11691 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV } ,
      url = { https://arxiv.org/abs/2407.11691 } ,
}