GPT4Vis Download - GPT4Vis Quellcode Download

GPT4Vis

AI-Quellcode

1.0.0

Herunterladen

GPT4vis: Was kann GPT-4 für die visuelle Erkennung von Null-Shot tun?

Wenn Sie unser Projekt mögen, geben Sie uns bitte einen Star auf GitHub für das neueste Update.

Wenhao Wu ^1,2 , Huanjin Yao ^2,3 , Mengxi Zhang ^2,4 , Yuxin Song ² , Wanli Ouyang ⁵ , Jingdong Wang ²

¹ Die Universität von Sydney, ² Baidu, ³ Tsinghua University, ⁴ Tianjin University, ⁵ Die chinesische Universität von Hongkong

Diese Arbeit befasst sich mit einer wesentlichen, aber mussten Basislinie angesichts der neuesten Fortschritte in der generativen künstlichen Intelligenz (Genai): die Nutzung von GPT-4 für visuelles Verständnis. Wir konzentrieren uns auf die Bewertung der sprachlichen und visuellen Funktionen von GPT-4 bei visuellen Erkennungsaufgaben von Null-Shot. Um eine umfassende Bewertung zu gewährleisten, haben wir Experimente in drei Modalitäten durchgeführt - Images, Videos und Punktwolken -, die insgesamt 16 beliebte akademische Benchmark aufspannen.

Ich habe auch andere Kreuzmodalprojekte, die Sie interessieren können.

Überprüfung der Klassifikator: Übertragung von Visionsprachenmodellen für die Videoerkennung
Wenhao Wu, Zhun Sun, Wanli Ouyang

Bidirektionales Kreuzmodalwissen Exploration für die Videokennung mit vorgebildeten Visionsprachmodellen
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang

Cap4video: Was können Hilfsunterschriften für das Abrufen von Textvideo tun?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Akzeptiert von CVPR 2023 als? Highlight? |

Nachricht

[7. März 2024] Aufgrund der jüngsten Entfernung von RPD-Grenzen (Anfrage pro Tag) in der GPT-4V-API haben wir unsere Vorhersagen für alle Datensätze mit Standard-Einzeltests aktualisiert (eine Stichprobe pro Anforderung). Schauen Sie sich die GPT4V -Ergebnisse , die Grundwahrheit und die Datensätze an, die wir für Sie geteilt haben! Als Heads-up kostet das Führen aller Tests einmal um 4000 $+?.
[28. November 2023] Wir veröffentlichen unseren Bericht in Arxiv.
[27. November 2023] Unsere Aufforderungen wurden veröffentlicht. Danke für deinen Stern?

Überblick

Ein Überblick über 16 bewertete beliebte Benchmark -Datensätze, die Bilder, Videos und Punktwolken umfassen.

Null-Shot-visuelle Erkennung Nutzung der sprachlichen und visuellen Funktionen von GPT-4.

Erzeugte Beschreibungen von GPT-4

Wir haben beschreibende Sätze für alle Kategorien in den Datensätzen, die Sie im Ordner gpt_generated_prompts finden können. Genießen Sie es zu erkunden!
Wir haben auch das Beispielskript bereitgestellt, um Ihnen zu helfen, Beschreibungen mit GPT-4 zu generieren. Hinweis dazu finden Sie in der Datei generate_prompt.py. Happy Coding! Weitere Informationen zu allen in unserem Projekt verwendeten Datensätzen finden Sie im Konfigurationsordner .

Führen Sie den folgenden Befehl aus, um Beschreibungen mit GPT-4 zu generieren.

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

GPT-4V (Ision) zur visuellen Erkennung

Wir teilen ein Beispielskript, das demonstriert, wie die GPT-4V-API für Null-Shot-Vorhersagen im DTD-Datensatz verwendet wird. In der Datei GPT4V_ZS.PY finden Sie eine schrittweise Anleitung zur Implementierung. Wir hoffen, es hilft Ihnen, mit Leichtigkeit loszulegen!
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
Alle Ergebnisse sind im Ordner gpt4v_zs_results verfügbar! Darüber hinaus haben wir den Datensätzenverbindungen zusammen mit ihren entsprechenden Grundwahrheiten ( Annotationsordner ) zur Verfügung gestellt, um den Lesern bei der Replikation der Ergebnisse zu helfen. Hinweis: Für bestimmte Datensätze haben wir möglicherweise Präfixe aus den Beispiel -IDs entfernt. Zum Beispiel wurde im Fall von ImagEnet "ILSVRC2012_VAL_00031094.jpEG" auf "00031094.jpeg" modifiziert.

DTD	Eurosat	Sun397	RAF-DB	Caltech101	ImageNet-1K	FGVC-Flugzeug	Blume102
57.7	46,8	59,2	68,7	93.7	63.1	56.6	69.1
Etikett	Etikett	Etikett	Etikett	Etikett	Etikett	Etikett	Etikett

Stanford Cars	Food101	Oxford -Haustiere	UCF-101	HMDB-51	Kinetik-400	Modellnet-10
62.7	86,2	90,8	83.7	58,8	58,8	66,9
Etikett	Etikett	Etikett	Etikett	Etikett	Etikett	Etikett

Mit den bereitgestellten Vorhersage- und Annotationsdateien können Sie unsere Top-1/Top-5-Genauigkeitsergebnisse mit dem Skript calculate_acc.py reproduzieren.
```
 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py
```

Erfordernis

Für die Anleitung zum Einrichten und Ausführen der GPT-4-API empfehlen wir Ihnen, die offizielle OpenAI-QuickStart-Dokumentation zu überprüfen,

? Bibtex & Zitat

Wenn Sie unseren Code in Ihrer Recherche verwenden oder sich auf die Ergebnisse beziehen möchten, spielen Sie bitte Star? dieses Repo und verwenden Sie die folgenden Bibtex? Eintrag.

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}

? ️ Bestätigung

Diese Bewertung basiert auf den hervorragenden Werken:

Clip: Erlernen übertragbarer visueller Modelle aus natürlicher Sprache, die natürliche Sprachüberwachung
GPT-4
Text4vis: Übertragung von Visionsprachenmodellen für die visuelle Erkennung: Eine Klassifikatorperspektive

Wir danken diesen Mitwirkenden aufrichtig.