مجموعة أدوات لتقييم نماذج كبيرة باللغة الرؤية.
• • • •
الإنجليزية | 简体中文 | 日本語
؟ OC Learderboard • QuickStart • مجموعات البيانات والنماذج • التطوير • الهدف • الاقتباس
؟ HF Leaderboard •؟ سجلات التقييم •؟ HF Video Leaderboard •؟ Discord • تقرير
Vlmevalkit (اسم حزمة Python هو Vlmeval ) هي مجموعة أدوات تقييم مفتوحة المصدر لنماذج كبيرة باللغة الرؤية (LVLMs) . إنه يتيح تقييمًا واحدًا من LVLMs على المعايير المختلفة ، دون عبء العمل الثقيل لإعداد البيانات تحت مستودعات متعددة. في Vlmevalkit ، نعتمد تقييمًا قائمًا على الجيل لجميع LVLMs ، ونوفر نتائج التقييم التي تم الحصول عليها مع كل من استخراج الإجابة المستندة إلى LLM .
VLMEVALKIT_USE_MODELSCOPE Flag جديد. من خلال تعيين متغير البيئة هذا ، يمكنك تنزيل معايير الفيديو المدعومة من ModelsCopepython run.py --help لمزيد من التفاصيلانظر [QuickStart | 快速开始] للحصول على دليل بدء سريع.
يمكن تنزيل أرقام الأداء على ألواحنا الرسمية متعددة الوسائط من هنا!
OpenVLM المتصدرين : قم بتنزيل جميع النتائج التفصيلية .
داعمة لفهم الصور
MCQ : سؤال متعدد الخيارات ؛ Y/N : نعم أو لا أسئلة ؛ MTT : معيار مع محادثات متعددة. MTI : معيار مع صور متعددة كمدخلات.| مجموعة البيانات | أسماء مجموعات البيانات (لـ Run.py) | مهمة | مجموعة البيانات | أسماء مجموعات البيانات (لـ Run.py) | مهمة |
|---|---|---|---|---|---|
| سلسلة MMBNCH : Mmbench ، Mmbench-Cn ، Ccbench | mmbench_dev_ [en/cn] mmbench_test_ [en/cn] mmbench_dev_ [en/cn] _v11 mmbench_test_ [en/cn] _v11 CCBENCH | MCQ | MMSTAR | MMSTAR | MCQ |
| Mme | Mme | ص/ن | سلسلة SoveBench | suppernch_img SoveBench2 SupperBench2_Plus | MCQ |
| مم | MMVET | VQA | MMMU | mmmu_ [dev_val/test] | MCQ |
| Mathvista | Mathvista_Mini | VQA | Scienceqa_img | Scienceqa_ [Val/Test] | MCQ |
| تعليق كوكو | Coco_val | التسمية التوضيحية | HallusionBench | HallusionBench | ص/ن |
| OCRVQA * | OCRVQA_ [testcore/test] | VQA | textVQA * | textVQA_VAL | VQA |
| chartqa * | chartqa_test | VQA | AI2D | ai2d_ [test/test_no_mask] | MCQ |
| Llavabench | Llavabench | VQA | docvqa + | docvqa_ [val/test] | VQA |
| infovqa + | infovqa_ [val/test] | VQA | Ocrbench | Ocrbench | VQA |
| RealWorldqa | RealWorldqa | MCQ | البابا | البابا | ص/ن |
| Core -MM - | core_mm (MTI) | VQA | MMT-BECK | mmt-bench_ [val/all] mmt-bench_ [val/all] _mi | MCQ (MTI) |
| mllmguard - | mllmguard_ds | VQA | AESBENCH + | AESBENCH_ [VAL/TEST] | MCQ |
| VCR-Wiki + | vcr_ [en/zh] _ [easy/hard] _ [All/500/100] | VQA | Mmlongbench-doc + | mmlongbench_doc | VQA (MTI) |
| وميض | وميض | MCQ (MTI) | MathVision + | MathVision MathVision_Mini | VQA |
| MT-VQA | MTVQA_Test | VQA | MMDU + | MMDU | VQA (MTT ، MTI) |
| q-bench1 | q-bench1_ [val/test] | MCQ | مقعد | A-bench_ [val/test] | MCQ |
| المتأنق + | يا صديقي | VQA (MTI) | slidevqa + | slidevqa slidevqa_mini | VQA (MTI) |
| TaskMeanything ImageQa عشوائي + | TaskMeanything_v1_imageqa_random | MCQ | mmmb و mmbench متعدد اللغات + | MMMB_ [AR/CN/EN/PT/RU/TR] mmbench_dev_ [ar/cn/en/pt/ru/tr] MMMB mtl_mmbench_dev PS: MMMB & MTL_MMBENCH_DEV كلها أسماء ل 6 langs | MCQ |
| A-OKVQA + | A-OKVQA | MCQ | Muirbench + | Muirbench | MCQ |
| GMAI-MMBENCH + | gmai-mmbench_val | MCQ | TableVqabench + | TableVqabench | VQA |
| Mme-RealWorld + | Mme-RealWorld [-cn] Mme-RealWorld-Lite | MCQ | Hrbench + | Hrbench [4K/8K] | MCQ |
| Matherse + | mathersevers_mini matherseverse_mini_vision_only matherseverse_mini_vision_dominant matherseverse_mini_vision_intensive mathersevers_mini_text_lite Mathersevers_mini_text_dominant | VQA | العنبر + | العنبر | ص/ن |
| CRPE + | CRPE_ [موجود/علاقة] | VQA | MMSearch | - | - |
| R-BECK + | R-Bench- [dis/Ref] | MCQ | WorldMedqa-V + | WorldMedqa-V. | MCQ |
| GQA + | gqa_testdev_balanced | VQA | Mia-bench + | ميا المقعد | VQA |
| Wildvision + | Wildvision | VQA | Olympiadbench + | Olympiadbench | VQA |
| مم Math + | مم | VQA | دينامث | دينامث | VQA |
| Mmgenbench - | MMgenbench-test Mmgenbench-domain | - | QSpatial + | QSpatial_ [Plus/Scannet] | VQA |
| Vizwiz + | فيزويز | VQA |
* نحن نقدم فقط مجموعة فرعية من نتائج التقييم ، لأن بعض VLMs لا تسفر عن نتائج معقولة تحت إعداد الصفر
+ نتائج التقييم غير متوفرة بعد
- يتم دعم الاستدلال فقط في Vlmevalkit (يتضمن انقسامات TEST بعض المعايير التي لا تشمل إجابات الحقيقة الأرضية).
ستستخدم Vlmevalkit قاضي LLM لاستخراج الإجابة من الإخراج إذا قمت بتعيين المفتاح ، وإلا فإنه يستخدم وضع المطابقة الدقيق (البحث "Yes" ، "No" ، "A" ، "B" ، "C" ... في سلاسل الإخراج). لا يمكن تطبيق المطابقة الدقيقة إلا على مهام Yes-or-NO والمهام المتعددة المخططات.
داعمة لفهم الفيديو DataSet
| مجموعة البيانات | أسماء مجموعات البيانات (لـ Run.py) | مهمة | مجموعة البيانات | أسماء مجموعات البيانات (لـ Run.py) | مهمة |
|---|---|---|---|---|---|
| Mmbench-Video | Mmbench-Video | VQA | فيديو MME | فيديو MME | MCQ |
| mvbench | mvbench/mvbench_mp4 | MCQ | mlvu | mlvu | MCQ & VQA |
| TempCompass | TempCompass | MCQ & Y/N & Caption | LongVideObench | LongVideObench | MCQ |
نماذج API المدعومة
| GPT-4V (20231106 ، 20240409) ؟ | GPT-4O ؟ | Gemini-1.0-Pro ؟ | Gemini-1.5-Pro ؟ | Step-1V ؟ |
|---|---|---|---|---|
| Reka- [Edge / Flash / Core] ؟ | Qwen-VL- [Plus / Max] ؟ Qwen-Vl- [Plus / Max] -0809 ؟ | Claude3- [Haiku / Sonnet / Opus] ؟ | GLM-4V ؟ | هوم ؟ |
| Claude3.5-Sonnet (20240620 ، 20241022) ؟ | GPT-4O-MINI ؟ | yi-vision ؟ | Hunyuan-pision ؟ | Bluelm-V ؟ |
| Telemm ؟ |
نماذج Pytorch / HF المدعومة
| IDEFICS- [9B/80B/V2-8B/V3-8B] -instruct ؟ | instructblip- [7b/13b] | llava- [v1-7b/v1.5-7b/v1.5-13b] | MINIGPT-4- [V1-7B/V1-13B/V2-7B] |
|---|---|---|---|
| Mplug-Powl [2/3] | OpenFlamingo-V2 | Pandagpt-13b | Qwen-VL ؟ Qwen-VL-Chat ؟ |
| VisualGLM-6B ؟ | internlm-xcomposer- [1/2] ؟ | sharegpt4v- [7b/13b] ؟ | transcore-m |
| llava (xtuner) ؟ | cogvlm- [chat/llama3] ؟ | ShareCaptioner ؟ | cogvlm-grounding generalist ؟ |
| قرد ؟ القرد الدردشة ؟ | EMU2-Chat ؟ | yi-vl- [6b/34b] | مالايا ؟ |
| internlm-xcomposer -2.5 ؟ | minicpm- [v1/v2/v2.5/v2.6] ؟ | Omnilmm-12b | internvl-chat- [v1-1/v1-2/v1-5/v2] ؟ |
| Deepseek-VL | llava-next ؟ | الأرنب llama3 ؟ | Xverse-V-13B |
| Paligemma-3b ؟ | 360VL-70B ؟ | PHI-3-Vision ؟ PHI-3.5-Vision ؟ | WEMM ؟ |
| GLM-4V-9B ؟ | Cambrian- [8b/13b/34b] | llava-next- [Qwen-32b] | Charmeleon- [7b/30b] ؟ |
| فيديو-لافا -7 ب- [HF] ؟ | vila1.5- [3b/8b/13b/40b] | OVIS [1.5-LLAMA3-8B/1.5-GEMMA2-9B/1.6-GEMMA2-9B/1.6-LALMAMA3.2-3B/1.6-GEMMA2-27B] ؟ | Mantis-8b- |
| llama-3-mixsensev1_1 ؟ | Parrot-7b ؟ | omchat-v2.0-13b-sinlge-beta ؟ | فيديو Chatgpt ؟ |
| الدردشة univi-7b [-v1.5] ؟ | Llama-Vid-7b ؟ | Videochat2-HD ؟ | Pllava- [7b/13b/34b] ؟ |
| RBDASH_72B ؟ | xgen-mm-phi3- [interleave/dpo] -r-v1.5 ؟ | QWEN2-VL- [2B/7B/72B] ؟ | Slime_ [7b/8b/13b] |
| Eagle-X4- [8b/13b] ؟ ، Eagle-X5- [7b/13b/34b] ؟ | Moondream1 ؟ ، Moondream2 ؟ | Xinyuan-VL-2B-instruct ؟ | llama-3.2- [11b/90b] -spision-instruct ؟ |
| Kosmos2 ؟ | H2OVL-Mississippi- [0.8b/2b] ؟ | ** pixtral-12b ** | ** Falcon2-VLM-11B **؟ |
| ** Minimonkey **؟ | ** llava-onevision **؟ | ** llava-video **؟ | ** Aquila-VL-2B **؟ |
| mini-internvl-chat- [2b/4b] -v1-5 ؟ | سلسلة internvl2 ؟ | ** Janus-1.3b **؟ | ** molmoe-1b/molmo-7b/molmo-72b **؟ |
| ** النقاط-[yi-1.5-9b/qwen-2.5-7b] **؟ | ** nvlm **؟ | ** فينترن **؟ | ** أريا **؟ |
: دعم الصور المتعددة كمدخلات.
؟: يمكن استخدام النماذج دون أي تكوين/تشغيل إضافي.
؟: دعم الفيديو كمدخلات.
توصية إصدار Transformers:
لاحظ أن بعض VLMs قد لا تكون قادرة على التشغيل تحت إصدارات محولات معينة ، نوصي بالإعدادات التالية لتقييم كل VLM:
transformers==4.33.0 لـ : Qwen series ، Monkey series ، InternLM-XComposer Series ، mPLUG-Owl2 ، OpenFlamingo v2 ، IDEFICS series ، VisualGLM ، MMAlaya ، ShareCaptioner ، MiniGPT-4 series ، InstructBLIP series ، PandaGPT ، VXVERSE .transformers==4.36.2 لـ : Moondream1 .transformers==4.37.0 لـ : LLaVA series ، ShareGPT4V series ، TransCore-M EMU2 Series LLaVA (XTuner) ، OmniLMM-12B CogVLM Series ، EMU2 Series ، Yi-VL Series DeepSeek-VL series Cambrian Series InternVL series VILA Series MiniCPM-[V1/V2] Llama-3-MixSenseV1_1 Parrot-7B ، PLLaVA Series .transformers==4.40.0 لـ : IDEFICS2 ، Bunny-Llama3 ، MiniCPM-Llama3-V2.5 ، 360VL-70B ، Phi-3-Vision ، WeMM .transformers==4.44.0 لـ : Moondream2 ، H2OVL series .transformers==4.45.0 لـ : Aria .transformers==latest لـ : LLaVA-Next series ، PaliGemma-3B ، Chameleon series ، Video-LLaVA-7B-HF ، Ovis series ، Mantis series ، MiniCPM-V2.6 ، OmChat-v2.0-13B-sinlge-beta ، Idefics VideoChat2-HD Idefics-3 ، RBDash_72b GLM-4v-9B Llama-3.2 series ، Kosmos series .توصية إصدار TorchVision:
لاحظ أن بعض VLMs قد لا تكون قادرة على التشغيل تحت إصدارات TorchVision معينة ، نوصي بالإعدادات التالية لتقييم كل VLM:
torchvision>=0.16 لـ : Moondream series و Ariaتوصية إصدار Flash-attn:
لاحظ أن بعض VLMs قد لا تكون قادرة على التشغيل ضمن بعض إصدارات الالتحاق بالفلاش ، نوصي بالإعدادات التالية لتقييم كل VLM:
pip install flash-attn --no-build-isolation لـ : Aria # Demo
from vlmeval . config import supported_VLM
model = supported_VLM [ 'idefics_9b_instruct' ]()
# Forward Single Image
ret = model . generate ([ 'assets/apple.jpg' , 'What is in this image?' ])
print ( ret ) # The image features a red apple with a leaf on it.
# Forward Multiple Images
ret = model . generate ([ 'assets/apple.jpg' , 'assets/apple.jpg' , 'How many apples are there in the provided images? ' ])
print ( ret ) # There are two apples in the provided images. لتطوير معايير مخصصة ، VLMS ، أو ببساطة المساهمة رموز أخرى في Vlmevalkit ، يرجى الرجوع إلى [Development_Guide | 开发指南].
دعوة للمساهمات
لتعزيز مساهمة المجتمع ومشاركة الائتمان المقابل (في تحديث التقرير التالي):
فيما يلي قائمة مساهمات قمنا برعاية السجلات.
تم تصميم قاعدة الشفرة ل:
generate_inner() واحدة ، وتتم معالجة جميع أعباء العمل الأخرى (تنزيل البيانات ، والمعالجة المسبقة للبيانات ، واستنتاج التنبؤ ، وحساب القياس) بواسطة قاعدة كود.قاعدة كود ليست مصممة ل:
إذا وجدت هذا العمل مفيدًا ، فالرجاء التفكير في النجوم؟ هذا الريبو. شكرا لدعمك!
إذا كنت تستخدم Vlmevalkit في بحثك أو ترغب في الرجوع إلى نتائج تقييم OpenSource المنشورة ، فيرجى استخدام إدخال Bibtex التالي وإدخال Bibtex المقابل لقياس VLM / المعيار المحدد الذي استخدمته.
@misc { duan2024vlmevalkit ,
title = { VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models } ,
author = { Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen } ,
year = { 2024 } ,
eprint = { 2407.11691 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2407.11691 } ,
}؟ العودة إلى الأعلى