Рабиул Аваль, Ле Чжан и Айшвария Агравал

Мы исследуем методы пробуждения с тонкой настройкой, применяемые к моделям на языке зрения, в частности, современны BLIP2, KOSMOS2, OpenFlamino и мультимодальной инструкции Llava. В основном мы сосредоточимся на следующих подходах к продвижению:
Существующие модели на языке зрения (VLMS) уже показывают хорошую перспектив VQA с нулевым выстрелом. Наши методы подсказки (особенно подписание в нескольких выстрелах) приводят к значительному повышению производительности по сравнению с критериями. Однако, хотя модели, настроенные на обучение, показывают, что они демонстрируют сильные способности рассуждения, наши тесты обнаружили, что эти способности рассуждения, особенно цепочка мыслей, имеют недостаток в различных показателях. Мы надеемся, что наша работа вдохновит будущие исследования в этом направлении.
Мы поддерживаем следующие форматы VQA:
| Формат | Описание | Пример |
|---|---|---|
| Стандартный VQA | Стандартный формат задачи VQA. | Вопрос : «Какова основная деятельность людей на сцене?» Ответ : "Танцы" |
| Подпись VQA | Начинается с подготовительной модели, затем стандартного формата VQA. | Контекст : группа людей в традиционной одежде танцует вокруг костра. Вопрос : «Какова основная деятельность людей на сцене?» Ответ : "Танцы" |
| Цепочка мыслей VQA | Реализует формат цепочки мыслей. | Вопрос : «Какова основная деятельность людей на сцене? Давайте подумаем о шаг за шагом». Ответ : «Во -первых, учитывая, что есть костер, это часто означает собрание или праздник. Затем, видя людей в традиционном наряде, подразумевает культурное событие. Слияние этих наблюдений, основная деятельность танцует вокруг костра». |
У нас есть список быстрых шаблонов, которые можно использовать с различными форматами VQA. Пожалуйста, проверьте prompts/templates/{dataset_name} .

Загрузите и расслабляйте файлы в dataset/ папку для наборов данных VQA. Для Winoground используйте библиотеку datasets об объятиях.
| OK-VQA | AOK-VQA | GQA | Винограунд | VQAV2 | |
|---|---|---|---|---|---|
| Источник | Аленай | Аленай | Стэнфорд | Обнимающееся лицо | Vqa |
Чтобы запустить стандартный VQA, используйте следующую команду:
python3 main.py --dataset_name okvqa
--model_name blip2_t5_flant5xxl
--vqa_format standard_vqa
--prompt_name prefix_your_task_knowledge_qa_short_answer
Чтобы запустить подпись VQA, используйте следующую команду:
python3 main.py --dataset_name okvqa
--model_name blip2_t5_flant5xxl
--vqa_format caption_vqa
--prompt_name prefix_your_task_knowledge_qa_short_answer,prefix_promptcap
Чтобы запустить VQA цепочки мыслей, используйте следующую команду:
python3 main.py --dataset_name okvqa
--model_name blip2_t5_flant5xxl
--vqa_format cot_vqa
--prompt_name prefix_think_step_by_step_rationale
Пожалуйста, подготовите dataset_zoo/nearest_neighbor.py .
python3 main.py
--dataset_name okvqa
--model_name blip2_t5_flant5xxl
--vqa_format standard_vqa
--prompt_name prefix_your_task_knowledge_qa_short_answer
--vicuna_ans_parser --few_shot
Учитывая ограничения показателей точности VQA в контексте открытого генерации ответов, мы предлагаем утилит сценариев в evals/vicuna_llm_evals.py . Используя Vicuna LLM, эти сценарии сгенерировали ответы на соответствие с эталонными ответами и впоследствии оценивают их на основе обычной метрики VQA.
python3 main.py
--dataset_name okvqa
--model_name blip2_t5_flant5xxl
--vqa_format standard_vqa
--prompt_name prefix_your_task_knowledge_qa_short_answer
--vicuna_ans_parser
Мы сообщаем о базовых и лучших результатах настройки. Пожалуйста, проверьте газету для получения дополнительных результатов.
| Blip2 Flan-T5 | Blip2 Opt | Космос2 | OpenFlamingo | Ллава | |
|---|---|---|---|---|---|
| Базовый уровень | 50.13 | 42,7 | 40.33 | 18.29 | 44,84 |
| Лучший | 50,55 | 46.29 | 43.09 | 42,48 | 46.86 |
| Blip2 Flan-T5 | Blip2 Opt | Космос2 | OpenFlamingo | Ллава | |
|---|---|---|---|---|---|
| Базовый уровень | 51.20 | 45,57 | 40,85 | 17.27 | 52,69 |
| Лучший | 54,98 | 49,39 | 43,60 | 44.13 | 52,32 |
| Blip2 Flan-T5 | Blip2 Opt | Космос2 | OpenFlamingo | Ллава | |
|---|---|---|---|---|---|
| Базовый уровень | 44,46 | 38.46 | 37.33 | 26.37 | 38.40 |
| Лучший | 47.01 | 41.99 | 40.13 | 41.00 | 42,65 |
| Blip2 Flan-T5 | Blip2 Opt | Космос2 | OpenFlamingo | Ллава | |
|---|---|---|---|---|---|
| Базовый уровень | 66.66 | 54,53 | 53,52 | 35,41 | 56.2 |
| Лучший | 71.37 | 62,81 | 57.33 | 58.0 | 65,32 |
Пожалуйста, напишите rabiul.awal [at] mila [dot] quebec по любым вопросам. Вы также можете открыть проблему или запрос на вытягивание, чтобы добавить больше методов подсказок или новых многомодальных моделей на языке зрения.
Если вы найдете этот код полезным, пожалуйста, укажите нашу статью:
@article{awal2023investigating,
title={Investigating Prompting Techniques for Zero-and Few-Shot Visual Question Answering},
author={Awal, Rabiul and Zhang, Le and Agrawal, Aishwarya},
journal={arXiv preprint arXiv:2306.09996},
year={2023}
}
Кодовая база строится на вершине репозиториев Transformers, Lavis, Llava и Fastchat. Мы благодарим авторов за их удивительную работу.