Инструментарий для оценки больших моделей на языке зрения.
• • • •
Английский | 简体中文 | 日本語
? Oc learderboard • QuickStart • Наборы данных и модели • Разработка • Цель • Цитирование
? Таблица лидеров HF •? Оценки записей •? Собственность лидеров видео HF •? Раздор • Отчет
Vlmevalkit (имя пакета Python- vlmeval )-это инструментарий с открытым исходным кодом, инструментарий для больших моделей на языке зрения (LVLMS) . Это обеспечивает одну команду оценку LVLMS на различных контрольных показателях, без тяжелой рабочей нагрузки подготовки данных при нескольких репозиториях. В vlmevalkit мы принимаем оценку на основе генерации для всех LVLMS и предоставляем результаты оценки, полученные как с точным сопоставлением , так и с извлечением ответов на основе LLM .
VLMEVALKIT_USE_MODELSCOPE . Установив эту переменную среды, вы можете загрузить тесты видео, поддерживаемые из ModelsCopepython run.py --help для получения более подробной информацииСмотрите [QuickStart | 快速开始] Для быстрого начала руководства.
Номера производительности на наших официальных многомодальных лидерах могут быть загружены отсюда!
OpenVLM Soarde : скачать все подробные результаты .
Поддерживаемый набор данных по пониманию изображений
MCQ : вопрос с несколькими выборами; Y/N : да или нет вопросов; MTT : эталон с многопрофильными разговорами; MTI : Benchmark with Multi-Image as Inputs.| Набор данных | Имена наборов данных (для run.py) | Задача | Набор данных | Имена наборов данных (для run.py) | Задача |
|---|---|---|---|---|---|
| Серия Mmbench : Mmbench, Mmbench-CN, Ccbench | Mmbench_dev_ [en/cn] Mmbench_test_ [en/cn] Mmbench_dev_ [en/cn] _v11 Mmbench_test_ [en/cn] _v11 Ccbench | MCQ | MMStar | MMStar | MCQ |
| Май | Май | Y/n | Серия Seedbench | SEEDBENCH_IMG SEEDBENCH2 SEEDBENCH2_PLUS | MCQ |
| Мм-вете | Mmvet | Vqa | МММУ | Mmmu_ [dev_val/test] | MCQ |
| Mathvista | Mathvista_mini | Vqa | Scienceqa_img | Scienceqa_ [val/test] | MCQ |
| Коко. Подпись | Coco_val | Подпись | HallusionBench | HallusionBench | Y/n |
| Ocrvqa * | Ocrvqa_ [testcore/test] | Vqa | TextVqa * | Textvqa_val | Vqa |
| Chartqa * | Chartqa_test | Vqa | Ai2d | Ai2d_ [test/test_no_mask] | MCQ |
| Llavabench | Llavabench | Vqa | Docvqa + | Docvqa_ [val/test] | Vqa |
| Infovqa + | Infovqa_ [val/test] | Vqa | Ocrbench | Ocrbench | Vqa |
| Realworldqa | Realworldqa | MCQ | Папа | Папа | Y/n |
| Core-MM - | Core_mm (mti) | Vqa | MMT-Bench | Mmt-bench_ [val/all] Mmt-bench_ [val/all] _mi | MCQ (MTI) |
| Mllmguard - | Mllmguard_ds | Vqa | Aesbench + | Aesbench_ [val/test] | MCQ |
| VCR-Wiki + | Vcr_ [en/zh] _ [легко/жестко] _ [All/500/100] | Vqa | Mmlongbench-Doc + | Mmlongbench_doc | VQA (MTI) |
| Мигание | Мигание | MCQ (MTI) | Mathvision + | Математика Mathvision_mini | Vqa |
| MT-VQA | Mtvqa_test | Vqa | MMDU + | MMDU | VQA (Mtt, MTI) |
| Q-Bench1 | Q-Bench1_ [val/test] | MCQ | А-банд | A-bench_ [val/test] | MCQ |
| Чувак + | ЧУВАК | VQA (MTI) | Slidevqa + | Slidevqa Slidevqa_mini | VQA (MTI) |
| TaskMeanyThing Imageqa random + | Taskmeanything_v1_imageqa_random | MCQ | Мммб и многоязычный MMBench + | Mmmb_ [ar/cn/en/pt/ru/tr] Mmbench_dev_ [ar/cn/en/pt/ru/tr] Мммб Mtl_mmbench_dev PS: MMMB & MTL_MMBENCH_DEV все имена в одном для 6 лангей | MCQ |
| A-okvqa + | A-okvqa | MCQ | Muirbench + | Мюрбенч | MCQ |
| Gmai-Mmbench + | Gmai-mmbench_val | MCQ | Tablevqabench + | Tablevqabench | Vqa |
| Mme-realworld + | Mme-realworld [-cn] MME-REALWORLD-LITE | MCQ | Hrbench + | Hrbench [4K/8K] | MCQ |
| Mathverse + | Mathverse_mini Mathverse_mini_vision_only Mathverse_mini_vision_dominant Mathverse_mini_vision_intneds Mathverse_mini_text_lite Mathverse_mini_text_dominant | Vqa | Янтарь + | ЯНТАРЬ | Y/n |
| CRPE + | Crpe_ [существует/отношение] | Vqa | Mmsearch | - | - |
| R-Bench + | R-bench- [dis/ref] | MCQ | WorldMedQA-V + | WorldMedqa-V | MCQ |
| GQA + | Gqa_testdev_balanced | Vqa | MIA-Bench + | Mia-Bench | Vqa |
| Wildvision + | Wildvision | Vqa | Олимпиадбенч + | Олимпиадбенч | Vqa |
| Мм-мат + | Мм-мат | Vqa | Динамик | Динамик | Vqa |
| Mmgenbench - | Mmgenbench-тест Mmgenbench-Domain | - | QSpatial + | Qspatial_ [plus/scannet] | Vqa |
| Vizwiz + | Визвиз | Vqa |
* Мы предоставляем только подмножество результатов оценки, поскольку некоторые VLMS не дают разумных результатов в соответствии с настройкой с нулевым выстрелом
+ Результаты оценки еще недоступны
- Только вывод поддерживается в vlmevalkit (который включает в себя TEST некоторых тестов, которые не включают ответы на основу истины).
Vlmevalkit будет использовать судью LLM для извлечения ответа из вывода, если вы установите ключ, в противном случае он использует точный режим соответствия (найти «да», «нет», «a», «b», «c» ... в выходных строках). Точное сопоставление может быть применено только к задачам «да или нет» и задачам с несколькими выборами.
Поддерживаемый набор данных по пониманию видео
| Набор данных | Имена наборов данных (для run.py) | Задача | Набор данных | Имена наборов данных (для run.py) | Задача |
|---|---|---|---|---|---|
| Mmbench-Video | Mmbench-Video | Vqa | Видео-мам | Видео-мам | MCQ |
| MVBench | Mvbench/mvbench_mp4 | MCQ | MLVU | MLVU | MCQ & VQA |
| TempCompass | TempCompass | MCQ & Y/N & Подпись | Longvideobench | Longvideobench | MCQ |
Поддерживаемые модели API
| GPT-4v (20231106, 20240409) ? | GPT-4O ? | Gemini-1.0-pro ? | Близнецы-1,5-про ? | Шаг-1В ? |
|---|---|---|---|---|
| Reka- [edge / flash / core] ? | Qwen-vl- [plus / max] ? Qwen-VL-[Plus / Max]-0809 ? | Claude3- [Haiku / Sonnet / Opus] ? | GLM-4V ? | Поднимитесь ? |
| Claude3.5-Sonnet (20240620, 20241022) ? | GPT-4O-Mini ? | Yi-vision ? | Хунюань-визирование ? | Bluelm-V ? |
| Телемм ? |
Поддерживаемые модели Pytorch / HF
| IDEFICS- [9B/80B/V2-8B/V3-8B] -instruct ? | INSTRUCTBLIP- [7B/13B] | Llava- [v1-7b/v1.5-7b/v1.5-13b] | Minigpt-4- [V1-7B/V1-13B/V2-7B] |
|---|---|---|---|
| Mplug-Sowl [2/3] | OpenFlaming-V2 | Pandagpt-13b | Qwen-vl ? QWEN-VL-Chat ? |
| VisualGlm-6b ? | Internlm-xcomposer- [1/2] ? | ShareGPT4V- [7B/13B] ? | Transcore-m |
| Llava (Xtuner) ? | Cogvlm- [CHAT/LLAMA3] ? | ShareCaptioner ? | Cogvlm-Generaling Generalist ? |
| Обезьяна ? Обезьяна ? | Emu2-chat ? | Yi-vl- [6b/34b] | Ммалайя ? |
| Internlm-xcomposer-2.5 ? | Minicpm- [v1/v2/v2.5/v2.6] ? | Omnilmm-12b | Internvl-Chat- [V1-1/V1-2/V1-5/V2] ? |
| DeepSeek-Vl | Llava-next ? | Bunny-Llama3 ? | Xverse-v-13b |
| Палигемма-3b ? | 360VL-70B ? | Phi-3-Vision ? Phi-3,5-Vision ? | Wemm ? |
| GLM-4V-9B ? | Камбрий-[8b/13b/34b] | Llava-next- [Qwen-32b] | Хамелеон- [7b/30b] ? |
| Видео-лопава-7B- [HF] ? | Vila1.5- [3b/8b/13b/40b] | OVIS [1,5-LLAMA3-8B/1,5-GEMMA2-9B/1,6-GEMMA2-9B/1,6-LLAMA3.2-3B/1,6-GEMMA2-27B] ? | Mantis-8b- [Siglip-Llama3/Clip-Llama3/Idefics2/fuyu] |
| Llama-3-mixsensev1_1 ? | Parrot-7B ? | OMCHAT-V2.0-13B-SINLGE-бета ? | Видео-чатгпт ? |
| Чат-Univi-7b [-v1.5] ? | Лама-вид-7b ? | VideoChat2-HD ? | Pllava- [7b/13b/34b] ? |
| Rbdash_72b ? | XGEN-MM-PHI3- [InterLeave/DPO] -r-V1.5 ? | Qwen2-vl- [2b/7b/72b] ? | Slime_ [7b/8b/13b] |
| Eagle-x4- [8b/13b] ?, Eagle-X5- [7b/13b/34b] ? | Moondream1 ?, Moondream2 ? | Xinyuan-VL-2B-Instruct ? | Llama-3.2- [11b/90b] -vision-instruct ? |
| Kosmos2 ? | H2OVL-Mississippi- [0,8b/2b] ? | ** Pixtral-12b ** | ** Falcon2-Vlm-11b **? |
| ** Minimonkey **? | ** llava-onevision **? | ** llava-video **? | ** aquila-vl-2b **? |
| Mini-internvl-chat- [2b/4b] -v1-5 ? | Серия Internvl2 ? | ** Janus-1.3b **? | ** molmoe-1b/molmo-7b/molmo-72b **? |
| ** Points- [Yi-1.5-9B/QWEN-2,5-7B] **? | ** nvlm **? | ** Винтерн **? | ** Ария **? |
: Поддерживать несколько изображений в качестве входных данных.
?: Модели могут использоваться без дополнительной конфигурации/работы.
?: Поддержать видео как входные данные.
Рекомендация версии трансформаторов:
Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями трансформатора, мы рекомендуем следующие настройки для оценки каждого VLM:
transformers==4.33.0 для : Qwen series , Monkey series , InternLM-XComposer Series , mPLUG-Owl2 , OpenFlamingo v2 , IDEFICS series , VisualGLM , MMAlaya , ShareCaptioner , MiniGPT-4 series , InstructBLIP series , PandaGPT , VXVERSE .transformers==4.36.2 для : Moondream1 .transformers==4.37.0 for : LLaVA series , ShareGPT4V series , TransCore-M , LLaVA (XTuner) , CogVLM Series , EMU2 Series , Yi-VL Series , MiniCPM-[V1/V2] , OmniLMM-12B , DeepSeek-VL series , InternVL series , Cambrian Series , VILA Series , Llama-3-MixSenseV1_1 , Parrot-7B , PLLaVA Series .transformers==4.40.0 for : IDEFICS2 , Bunny-Llama3 , MiniCPM-Llama3-V2.5 , 360VL-70B , Phi-3-Vision , WeMM .transformers==4.44.0 для : Moondream2 , H2OVL series .transformers==4.45.0 для : Aria .transformers==latest для : LLaVA-Next series , PaliGemma-3B , Chameleon series , Video-LLaVA-7B-HF , Ovis series , Mantis series , MiniCPM-V2.6 , OmChat-v2.0-13B-sinlge-beta , Idefics-3 , GLM-4v-9B , videoChat2 Llama-3.2 series VideoChat2-HD , RBDash_72b . Kosmos series .Рекомендация версии Torchvision:
Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями Toothvision, мы рекомендуем следующие настройки для оценки каждого VLM:
torchvision>=0.16 для : Moondream series и AriaРекомендация версии Flash-ATTN:
Обратите внимание, что некоторые VLMS не смогут работать в соответствии с определенными версиями флэш-агитации, мы рекомендуем следующие настройки для оценки каждого VLM:
pip install flash-attn --no-build-isolation для : Aria # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret ) # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret ) # There are two apples in the provided images. Чтобы разработать пользовательские тесты, VLMS или просто внести другие коды в vlmevalkit , пожалуйста, см. [Development_Guide | 开发指南].
Призовать взносы
Чтобы содействовать вкладу сообщества и поделиться соответствующим кредитом (в обновлении следующего отчета):
Вот список участников, который мы курировали на основе записей.
Кодовая база предназначена для:
generate_inner() , все другие рабочие нагрузки (загрузка данных, предварительная обработка данных, вывод прогнозирования, расчет показателей) обрабатываются кодовой базой.Кодовая база не предназначена для:
Если вы найдете эту работу полезной, пожалуйста, рассмотрите возможность Star? это репо. Спасибо за вашу поддержку!
Если вы используете vlmevalkit в своем исследовании или хотите обратиться к опубликованным результатам оценки OpenSource, используйте следующую запись Bibtex и запись Bibtex, соответствующую конкретному использованному вами VLM / эталонам.
@misc { duan2024vlmevalkit ,
title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
year = { 2024 } ,
eprint = { 2407.11691 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2407.11691 } ,
}? Вернуться к вершине