VLMEvalKit скачать - загрузка исходного кода VLMEvalKit

VLMEvalKit

Другой исходный код

valKit v0.1

Скачать

Инструментарий для оценки больших моделей на языке зрения.

• • • •

Английский | 简体中文 | 日本語

? Oc learderboard • QuickStart • Наборы данных и модели • Разработка • Цель • Цитирование

? Таблица лидеров HF •? Оценки записей •? Собственность лидеров видео HF •? Раздор • Отчет

Vlmevalkit (имя пакета Python- vlmeval )-это инструментарий с открытым исходным кодом, инструментарий для больших моделей на языке зрения (LVLMS) . Это обеспечивает одну команду оценку LVLMS на различных контрольных показателях, без тяжелой рабочей нагрузки подготовки данных при нескольких репозиториях. В vlmevalkit мы принимаем оценку на основе генерации для всех LVLMS и предоставляем результаты оценки, полученные как с точным сопоставлением , так и с извлечением ответов на основе LLM .

? Новости

[2024-11-26] поддержал OVIS1.6-Gemma2-27B, благодаря Runglsy
[2024-11-25] Создайте новый флаг VLMEVALKIT_USE_MODELSCOPE . Установив эту переменную среды, вы можете загрузить тесты видео, поддерживаемые из ModelsCope
[2024-11-25] Поддержал эталон Vizwiz
[2024-11-22] поддержал вывод ммгенбенча , спасибо Лерого
[2024-11-22] поддержал Dynamath , мультимодальный математический эталон, состоящий из 501 задач семян и 10 вариантов, генерируемых на основе случайных семян. Конфликт можно использовать для измерения надежности MLLM в мультимодальном математическом решении
[2024-11-21] интегрировали новую систему конфигурации, чтобы включить более гибкие настройки оценки. Проверьте документ или запустите python run.py --help для получения более подробной информации
[2024-11-21] Поддержал QSpatial , мультимодальный эталон для количественных пространственных рассуждений (определить размер / расстояние, например), спасибо Andrewliao11 за предоставление официальной поддержки
[2024-11-21] поддержал MM-Math , новый мультимодальный математический эталон, состоящий из многомодальных математических проблем ~ 6K средней школы. GPT-4O-20240806 Акцент 22,5% Точность на этом эталонном этаже
[2024-11-16] Поддержал Олимпиадбенч , новый мультимодальный эталон, включающий вопросы по математике и физике на уровне олимпиады
[2024-11-16] Поддержал Wildvision , новый субъективный мультимодальный эталон, полученный из данных с мультимодальной ареной
[2024-11-13] Поддержал Mia-Bench , многомодальный эталон, следуя инструкциям

QuickStart

Смотрите [QuickStart | 快速开始] Для быстрого начала руководства.

Наборы данных, модели и результаты оценки

Результаты оценки

Номера производительности на наших официальных многомодальных лидерах могут быть загружены отсюда!

OpenVLM Soarde : скачать все подробные результаты .

Поддерживаемые тесты

Поддерживаемый набор данных по пониманию изображений

По умолчанию все результаты оценки представлены в таблице лидеров OpenVLM .
ABBRS: MCQ : вопрос с несколькими выборами; Y/N : да или нет вопросов; MTT : эталон с многопрофильными разговорами; MTI : Benchmark with Multi-Image as Inputs.

Набор данных	Имена наборов данных (для run.py)	Задача	Набор данных	Имена наборов данных (для run.py)	Задача
Серия Mmbench : Mmbench, Mmbench-CN, Ccbench	Mmbench_dev_ [en/cn] Mmbench_test_ [en/cn] Mmbench_dev_ [en/cn] _v11 Mmbench_test_ [en/cn] _v11 Ccbench	MCQ	MMStar	MMStar	MCQ
Май	Май	Y/n	Серия Seedbench	SEEDBENCH_IMG SEEDBENCH2 SEEDBENCH2_PLUS	MCQ
Мм-вете	Mmvet	Vqa	МММУ	Mmmu_ [dev_val/test]	MCQ
Mathvista	Mathvista_mini	Vqa	Scienceqa_img	Scienceqa_ [val/test]	MCQ
Коко. Подпись	Coco_val	Подпись	HallusionBench	HallusionBench	Y/n
Ocrvqa *	Ocrvqa_ [testcore/test]	Vqa	TextVqa *	Textvqa_val	Vqa
Chartqa *	Chartqa_test	Vqa	Ai2d	Ai2d_ [test/test_no_mask]	MCQ
Llavabench	Llavabench	Vqa	Docvqa +	Docvqa_ [val/test]	Vqa
Infovqa +	Infovqa_ [val/test]	Vqa	Ocrbench	Ocrbench	Vqa
Realworldqa	Realworldqa	MCQ	Папа	Папа	Y/n
Core-MM -	Core_mm (mti)	Vqa	MMT-Bench	Mmt-bench_ [val/all] Mmt-bench_ [val/all] _mi	MCQ (MTI)
Mllmguard -	Mllmguard_ds	Vqa	Aesbench +	Aesbench_ [val/test]	MCQ
VCR-Wiki +	Vcr_ [en/zh] _ [легко/жестко] _ [All/500/100]	Vqa	Mmlongbench-Doc +	Mmlongbench_doc	VQA (MTI)
Мигание	Мигание	MCQ (MTI)	Mathvision +	Математика Mathvision_mini	Vqa
MT-VQA	Mtvqa_test	Vqa	MMDU +	MMDU	VQA (Mtt, MTI)
Q-Bench1	Q-Bench1_ [val/test]	MCQ	А-банд	A-bench_ [val/test]	MCQ
Чувак +	ЧУВАК	VQA (MTI)	Slidevqa +	Slidevqa Slidevqa_mini	VQA (MTI)
TaskMeanyThing Imageqa random +	Taskmeanything_v1_imageqa_random	MCQ	Мммб и многоязычный MMBench +	Mmmb_ [ar/cn/en/pt/ru/tr] Mmbench_dev_ [ar/cn/en/pt/ru/tr] Мммб Mtl_mmbench_dev PS: MMMB & MTL_MMBENCH_DEV все имена в одном для 6 лангей	MCQ
A-okvqa +	A-okvqa	MCQ	Muirbench +	Мюрбенч	MCQ
Gmai-Mmbench +	Gmai-mmbench_val	MCQ	Tablevqabench +	Tablevqabench	Vqa
Mme-realworld +	Mme-realworld [-cn] MME-REALWORLD-LITE	MCQ	Hrbench +	Hrbench [4K/8K]	MCQ
Mathverse +	Mathverse_mini Mathverse_mini_vision_only Mathverse_mini_vision_dominant Mathverse_mini_vision_intneds Mathverse_mini_text_lite Mathverse_mini_text_dominant	Vqa	Янтарь +	ЯНТАРЬ	Y/n
CRPE +	Crpe_ [существует/отношение]	Vqa	Mmsearch $$^1 $$	-	-
R-Bench +	R-bench- [dis/ref]	MCQ	WorldMedQA-V +	WorldMedqa-V	MCQ
GQA +	Gqa_testdev_balanced	Vqa	MIA-Bench +	Mia-Bench	Vqa
Wildvision +	Wildvision	Vqa	Олимпиадбенч +	Олимпиадбенч	Vqa
Мм-мат +	Мм-мат	Vqa	Динамик	Динамик	Vqa
Mmgenbench -	Mmgenbench-тест Mmgenbench-Domain	-	QSpatial +	Qspatial_ [plus/scannet]	Vqa
Vizwiz +	Визвиз	Vqa

* Мы предоставляем только подмножество результатов оценки, поскольку некоторые VLMS не дают разумных результатов в соответствии с настройкой с нулевым выстрелом

+ Результаты оценки еще недоступны

- Только вывод поддерживается в vlmevalkit (который включает в себя TEST некоторых тестов, которые не включают ответы на основу истины).

$$^1 $$ Vlmevalkit интегрируется в его официальный репозиторий.

Vlmevalkit будет использовать судью LLM для извлечения ответа из вывода, если вы установите ключ, в противном случае он использует точный режим соответствия (найти «да», «нет», «a», «b», «c» ... в выходных строках). Точное сопоставление может быть применено только к задачам «да или нет» и задачам с несколькими выборами.

Поддерживаемый набор данных по пониманию видео

Набор данных	Имена наборов данных (для run.py)	Задача	Набор данных	Имена наборов данных (для run.py)	Задача
Mmbench-Video	Mmbench-Video	Vqa	Видео-мам	Видео-мам	MCQ
MVBench	Mvbench/mvbench_mp4	MCQ	MLVU	MLVU	MCQ & VQA
TempCompass	TempCompass	MCQ & Y/N & Подпись	Longvideobench	Longvideobench	MCQ

Поддерживаемые модели

Поддерживаемые модели API

GPT-4v (20231106, 20240409) ?	GPT-4O ?	Gemini-1.0-pro ?	Близнецы-1,5-про ?	Шаг-1В ?
Reka- [edge / flash / core] ?	Qwen-vl- [plus / max] ? Qwen-VL-[Plus / Max]-0809 ?	Claude3- [Haiku / Sonnet / Opus] ?	GLM-4V ?	Поднимитесь ?
Claude3.5-Sonnet (20240620, 20241022) ?	GPT-4O-Mini ?	Yi-vision ?	Хунюань-визирование ?	Bluelm-V ?
Телемм ?

Поддерживаемые модели Pytorch / HF

IDEFICS- [9B/80B/V2-8B/V3-8B] -instruct ?	INSTRUCTBLIP- [7B/13B]	Llava- [v1-7b/v1.5-7b/v1.5-13b]	Minigpt-4- [V1-7B/V1-13B/V2-7B]
Mplug-Sowl [2/3]	OpenFlaming-V2	Pandagpt-13b	Qwen-vl ? QWEN-VL-Chat ?
VisualGlm-6b ?	Internlm-xcomposer- [1/2] ?	ShareGPT4V- [7B/13B] ?	Transcore-m
Llava (Xtuner) ?	Cogvlm- [CHAT/LLAMA3] ?	ShareCaptioner ?	Cogvlm-Generaling Generalist ?
Обезьяна ? Обезьяна ?	Emu2-chat ?	Yi-vl- [6b/34b]	Ммалайя ?
Internlm-xcomposer-2.5 ?	Minicpm- [v1/v2/v2.5/v2.6] ?	Omnilmm-12b	Internvl-Chat- [V1-1/V1-2/V1-5/V2] ?
DeepSeek-Vl	Llava-next ?	Bunny-Llama3 ?	Xverse-v-13b
Палигемма-3b ?	360VL-70B ?	Phi-3-Vision ? Phi-3,5-Vision ?	Wemm ?
GLM-4V-9B ?	Камбрий-[8b/13b/34b]	Llava-next- [Qwen-32b]	Хамелеон- [7b/30b] ?
Видео-лопава-7B- [HF] ?	Vila1.5- [3b/8b/13b/40b]	OVIS [1,5-LLAMA3-8B/1,5-GEMMA2-9B/1,6-GEMMA2-9B/1,6-LLAMA3.2-3B/1,6-GEMMA2-27B] ?	Mantis-8b- [Siglip-Llama3/Clip-Llama3/Idefics2/fuyu]
Llama-3-mixsensev1_1 ?	Parrot-7B ?	OMCHAT-V2.0-13B-SINLGE-бета ?	Видео-чатгпт ?
Чат-Univi-7b [-v1.5] ?	Лама-вид-7b ?	VideoChat2-HD ?	Pllava- [7b/13b/34b] ?
Rbdash_72b ?	XGEN-MM-PHI3- [InterLeave/DPO] -r-V1.5 ?	Qwen2-vl- [2b/7b/72b] ?	Slime_ [7b/8b/13b]
Eagle-x4- [8b/13b] ?, Eagle-X5- [7b/13b/34b] ?	Moondream1 ?, Moondream2 ?	Xinyuan-VL-2B-Instruct ?	Llama-3.2- [11b/90b] -vision-instruct ?
Kosmos2 ?	H2OVL-Mississippi- [0,8b/2b] ?	Pixtral-12b	Falcon2-Vlm-11b ?
Minimonkey ?	llava-onevision ?	llava-video ?	aquila-vl-2b ?
Mini-internvl-chat- [2b/4b] -v1-5 ?	Серия Internvl2 ?	Janus-1.3b ?	molmoe-1b/molmo-7b/molmo-72b ?
Points- [Yi-1.5-9B/QWEN-2,5-7B] ?	nvlm ?	Винтерн ?	Ария ?

: Поддерживать несколько изображений в качестве входных данных.

?: Модели могут использоваться без дополнительной конфигурации/работы.

?: Поддержать видео как входные данные.

Рекомендация версии трансформаторов:

Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями трансформатора, мы рекомендуем следующие настройки для оценки каждого VLM:

Пожалуйста, используйте transformers==4.33.0 для : Qwen series , Monkey series , InternLM-XComposer Series , mPLUG-Owl2 , OpenFlamingo v2 , IDEFICS series , VisualGLM , MMAlaya , ShareCaptioner , MiniGPT-4 series , InstructBLIP series , PandaGPT , VXVERSE .
Пожалуйста, используйте transformers==4.36.2 для : Moondream1 .
Please use transformers==4.37.0 for : LLaVA series , ShareGPT4V series , TransCore-M , LLaVA (XTuner) , CogVLM Series , EMU2 Series , Yi-VL Series , MiniCPM-[V1/V2] , OmniLMM-12B , DeepSeek-VL series , InternVL series , Cambrian Series , VILA Series , Llama-3-MixSenseV1_1 , Parrot-7B , PLLaVA Series .
Please use transformers==4.40.0 for : IDEFICS2 , Bunny-Llama3 , MiniCPM-Llama3-V2.5 , 360VL-70B , Phi-3-Vision , WeMM .
Пожалуйста, используйте transformers==4.44.0 для : Moondream2 , H2OVL series .
Пожалуйста, используйте transformers==4.45.0 для : Aria .
Пожалуйста, используйте transformers==latest для : LLaVA-Next series , PaliGemma-3B , Chameleon series , Video-LLaVA-7B-HF , Ovis series , Mantis series , MiniCPM-V2.6 , OmChat-v2.0-13B-sinlge-beta , Idefics-3 , GLM-4v-9B , videoChat2 Llama-3.2 series VideoChat2-HD , RBDash_72b . Kosmos series .

Рекомендация версии Torchvision:

Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями Toothvision, мы рекомендуем следующие настройки для оценки каждого VLM:

Пожалуйста, используйте torchvision>=0.16 для : Moondream series и Aria

Рекомендация версии Flash-ATTN:

Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями флэш-агитации, мы рекомендуем следующие настройки для оценки каждого VLM:

Пожалуйста, используйте pip install flash-attn --no-build-isolation для : Aria

 # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret )  # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret )  # There are two apples in the provided images.

Руководство по разработке

Чтобы разработать пользовательские тесты, VLMS или просто внести другие коды в vlmevalkit , пожалуйста, см. [Development_Guide | 开发指南].

Призовать взносы

Чтобы содействовать вкладу сообщества и поделиться соответствующим кредитом (в обновлении следующего отчета):

Все взносы будут признаны в отчете.
Участники с 3 или более основными вкладами (реализация MLLM, Benchmark или основной функции) могут присоединиться к списку автора технического отчета VLMevalkit по ARXIV. Приемлемые участники могут создать проблему или DM Kennyutc в канале Vlmevalkit Discord.

Вот список участников, который мы курировали на основе записей.

Цель vlmevalkit

Кодовая база предназначена для:

Provide an easy-to-use , opensource evaluation toolkit to make it convenient for researchers & developers to evaluate existing LVLMs and make evaluation results easy to reproduce .
Облегчить разработчикам VLM оценить свои собственные модели. Чтобы оценить VLM на нескольких поддерживаемых контрольных показателях, нужно просто реализовать одну функцию generate_inner() , все другие рабочие нагрузки (загрузка данных, предварительная обработка данных, вывод прогнозирования, расчет показателей) обрабатываются кодовой базой.

Кодовая база не предназначена для:

Воспроизведите точное число точности, сообщаемое в оригинальных документах всех сторонних тестов . Причина может быть двумя:
1. Vlmevalkit использует оценку на основе генерации для всех VLMS (и, необязательно с извлечением ответов на основе LLM ). Между тем, некоторые тесты могут использовать разные подходы (Seedbench использует оценку на основе PPL, например ). Для этих тестов мы сравниваем оба оценки в соответствующем результате. Мы призываем разработчиков поддержать другие парадигмы оценки в кодовой базе.
2. По умолчанию мы используем один и тот же шаблон подсказки для всех VLMS для оценки на эталон. Между тем, некоторые VLM могут иметь свои конкретные шаблоны быстрого быстрого приглашения (некоторые могут не охватывать кодовую базу в настоящее время). Мы призываем разработчиков VLM реализовать свой собственный шаблон быстрого быстрого шаблона в vlmevalkit, если это не покрыто в настоящее время. Это поможет улучшить воспроизводимость.

Цитирование

Если вы найдете эту работу полезной, пожалуйста, рассмотрите возможность Star? это репо. Спасибо за вашу поддержку!

Если вы используете vlmevalkit в своем исследовании или хотите обратиться к опубликованным результатам оценки OpenSource, используйте следующую запись Bibtex и запись Bibtex, соответствующую конкретному использованному вами VLM / эталонам.

 @misc { duan2024vlmevalkit ,
      title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
      author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
      year = { 2024 } ,
      eprint = { 2407.11691 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV } ,
      url = { https://arxiv.org/abs/2407.11691 } ,
}