vqazero Download - vqazero Quellcode Download

vqazero

AI-Quellcode

1.0.0

Herunterladen

Untersuchung von Anlaufstechniken zur Beantwortung von visuellen Fragen mit Null- und wenigen Schichten

Rabiul Awal, Le Zhang und Aishwarya Agrawal

Vqa prompt teaser

Inhaltsverzeichnis

Installation
Ansatz
- VQA -Formate
- Eingabeaufforderung Vorlagen
Datensätze
Verwendung
- Ausführen des Inferenzcode
- Laufen Vicuna Antwortextraktion
Ergebnisse
Zitieren
Anerkennung

Ansatz

Wir untersuchen feinabstimmfreie Aufforderungstechniken, die auf Sichtsprachmodelle angewendet werden, insbesondere auf modernste Blip2-, Kosmos2-, OpenFlamino- und multimodale LLAVA. Wir konzentrieren uns hauptsächlich auf folgende Ansätze:

Null- und wenige Schuss-Eingabeaufforderung Vorlagen (häufig in NLP untersucht).
Kette der Gedanken für VQA.
Eine zweistufige VQA-Methode, die eine Bildunterschrift als zusätzlichen visuellen Kontext für VLMs vorschlägt.

Vorhandene Sichtsprachmodelle (VLMs) zeigen bereits eine gute Null-Shot-VQA-Leistung. Unsere Aufforderungstechniken (insbesondere die Bildunterschrift in wenigen VQA) führen zu einer erheblichen Leistungssteigerung über die Benchmarks hinweg. Obwohl behauptet werden, dass modellierte Modelle starke Argumentationsfähigkeiten aufweisen, stellten unsere Tests fest, dass diese Argumentationsfähigkeiten, insbesondere die Gedankenkette, an verschiedenen Benchmarks mangelhaft sind. Wir hoffen, dass unsere Arbeit zukünftige Forschungen in diese Richtung inspirieren wird.

VQA -Formate

Wir unterstützen die folgenden VQA -Formate:

Format	Beschreibung	Beispiel
Standard VQA	Standard -VQA -Aufgabenformat.	Frage : "Was ist die Hauptaktivität der Menschen in der Szene?" Antwort : "Tanzen"
Bildunterschrift VQA	Beginnt mit einer Modell-generierten Bildunterschrift und dann mit dem Standard-VQA-Format.	Kontext : Eine Gruppe von Menschen in traditioneller Kleidung tanzt um ein Lagerfeuer. Frage : "Was ist die Hauptaktivität der Menschen in der Szene?" Antwort : "Tanzen"
VQA-Kette	Implementiert das übergedachte Format der Kette.	Frage : "Was ist die Hauptaktivität der Menschen in der Szene? Überlegen wir uns Schritt für Schritt." Antwort : "In Anbetracht dessen, dass es ein Lagerfeuer gibt, bedeutet dies häufig eine Versammlung oder Feste. Als nächstes impliziert das Sehen von Menschen in traditioneller Kleidung ein kulturelles Ereignis. Wenn man diese Beobachtungen verschmelzen, tanzt die Hauptaktivität am Lagerfeuer."

Eingabeaufforderung Vorlagen

Wir haben eine Liste von schnellen Vorlagen, die mit verschiedenen VQA -Formaten verwendet werden können. Bitte überprüfen Sie die prompts/templates/{dataset_name} .

VQA -Eingabeaufforderung Vorlagen

Datensätze

Laden Sie die Dateien für die VQA -Datensätze in den dataset/ Ordner herunter und entpacken Sie sie. Verwenden Sie für WinOgroder die Bio -Bibliothek der umarmenden datasets .

	Ok-vqa	Aok-vqa	GQA	Winöhe	VQAV2
Quelle	Allenai	Allenai	Stanford	Umarmtes Gesicht	VQA

Verwendung

Ausführen des Inferenzcode

Verwenden Sie den folgenden Befehl, um die Standard -VQA auszuführen:

 python3 main.py --dataset_name okvqa 
  --model_name blip2_t5_flant5xxl 
  --vqa_format standard_vqa 
  --prompt_name prefix_your_task_knowledge_qa_short_answer

Verwenden Sie den folgenden Befehl, um die Bildunterschrift VQA auszuführen:

 python3 main.py --dataset_name okvqa 
  --model_name blip2_t5_flant5xxl 
  --vqa_format caption_vqa 
  --prompt_name prefix_your_task_knowledge_qa_short_answer,prefix_promptcap

Verwenden Sie den folgenden Befehl, um die VQA der Kette des Gedächtnisses auszuführen:

 python3 main.py --dataset_name okvqa 
  --model_name blip2_t5_flant5xxl 
  --vqa_format cot_vqa 
  --prompt_name prefix_think_step_by_step_rationale

FEEM WEILE SHOT-Inferenz ausführen

Bitte erstellen Sie example dataset dataset_zoo/nearest_neighbor.py und führen Sie den folgenden Befehl aus:

 python3 main.py 
  --dataset_name okvqa 
  --model_name blip2_t5_flant5xxl 
  --vqa_format standard_vqa 
  --prompt_name prefix_your_task_knowledge_qa_short_answer 
  --vicuna_ans_parser --few_shot

Laufen Vicuna Antwortextraktion

In Anbetracht der Einschränkungen der VQA-Genauigkeitsmetriken im Kontext der offenen Antwortgenerierung bieten wir Dienstprogrammskripte in evals/vicuna_llm_evals.py an. Mit Vicuna LLM verarbeiten diese Skripte Antworten, um sich an Referenzantworten auszurichten, und bewerten sie anschließend anhand der herkömmlichen VQA -Metrik.

 python3 main.py 
  --dataset_name okvqa 
  --model_name blip2_t5_flant5xxl 
  --vqa_format standard_vqa 
  --prompt_name prefix_your_task_knowledge_qa_short_answer 
  --vicuna_ans_parser

Ergebnisse

Wir melden die Basis- und besten Einstellungsergebnisse. Bitte überprüfen Sie das Papier, um weitere Ergebnisse zu erhalten.

OKVQA

	Blip2 Flan-T5	Blip2 opt	Kosmos2	OpenFlamingo	Llava
Grundlinie	50.13	42.7	40.33	18.29	44,84
Am besten	50.55	46.29	43.09	42.48	46,86

Aokvqa

	Blip2 Flan-T5	Blip2 opt	Kosmos2	OpenFlamingo	Llava
Grundlinie	51.20	45,57	40.85	17.27	52.69
Am besten	54,98	49,39	43,60	44.13	52.32

GQA

	Blip2 Flan-T5	Blip2 opt	Kosmos2	OpenFlamingo	Llava
Grundlinie	44,46	38.46	37.33	26.37	38.40
Am besten	47.01	41.99	40.13	41.00	42,65

VQAV2

	Blip2 Flan-T5	Blip2 opt	Kosmos2	OpenFlamingo	Llava
Grundlinie	66,66	54,53	53,52	35.41	56,2
Am besten	71.37	62,81	57.33	58.0	65.32

Zitieren

Bitte senden Sie eine E -Mail an rabiul.awal [at] mila [dot] quebec für Fragen. Sie können auch eine Ausgabe eröffnen oder anrufen, um mehr Aufforderungstechniken oder neue multi-modal-Vision-Sprachen-Modelle hinzuzufügen.

Wenn Sie diesen Code nützlich finden, zitieren Sie bitte unser Papier:

 @article{awal2023investigating,
  title={Investigating Prompting Techniques for Zero-and Few-Shot Visual Question Answering},
  author={Awal, Rabiul and Zhang, Le and Agrawal, Aishwarya},
  journal={arXiv preprint arXiv:2306.09996},
  year={2023}
}