Wenhao Wu 1,2 , Huanjin Yao 2,3 , Mengxi Zhang 2,4 , Yuxin Song 2 , Wanli Ouyang 5 , Jingdong Wang 2
1 Die Universität von Sydney, 2 Baidu, 3 Tsinghua University, 4 Tianjin University, 5 Die chinesische Universität von Hongkong
Diese Arbeit befasst sich mit einer wesentlichen, aber mussten Basislinie angesichts der neuesten Fortschritte in der generativen künstlichen Intelligenz (Genai): die Nutzung von GPT-4 für visuelles Verständnis. Wir konzentrieren uns auf die Bewertung der sprachlichen und visuellen Funktionen von GPT-4 bei visuellen Erkennungsaufgaben von Null-Shot. Um eine umfassende Bewertung zu gewährleisten, haben wir Experimente in drei Modalitäten durchgeführt - Images, Videos und Punktwolken -, die insgesamt 16 beliebte akademische Benchmark aufspannen.

Überprüfung der Klassifikator: Übertragung von Visionsprachenmodellen für die Videoerkennung
Wenhao Wu, Zhun Sun, Wanli Ouyang
Bidirektionales Kreuzmodalwissen Exploration für die Videokennung mit vorgebildeten Visionsprachmodellen
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
Cap4video: Was können Hilfsunterschriften für das Abrufen von Textvideo tun?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Akzeptiert von CVPR 2023 als? Highlight? |

Null-Shot-visuelle Erkennung Nutzung der sprachlichen und visuellen Funktionen von GPT-4.

Wir haben beschreibende Sätze für alle Kategorien in den Datensätzen, die Sie im Ordner gpt_generated_prompts finden können. Genießen Sie es zu erkunden!
Wir haben auch das Beispielskript bereitgestellt, um Ihnen zu helfen, Beschreibungen mit GPT-4 zu generieren. Hinweis dazu finden Sie in der Datei generate_prompt.py. Happy Coding! Weitere Informationen zu allen in unserem Projekt verwendeten Datensätzen finden Sie im Konfigurationsordner .
Führen Sie den folgenden Befehl aus, um Beschreibungen mit GPT-4 zu generieren.
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
Wir teilen ein Beispielskript, das demonstriert, wie die GPT-4V-API für Null-Shot-Vorhersagen im DTD-Datensatz verwendet wird. In der Datei GPT4V_ZS.PY finden Sie eine schrittweise Anleitung zur Implementierung. Wir hoffen, es hilft Ihnen, mit Leichtigkeit loszulegen!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.pyAlle Ergebnisse sind im Ordner gpt4v_zs_results verfügbar! Darüber hinaus haben wir den Datensätzenverbindungen zusammen mit ihren entsprechenden Grundwahrheiten ( Annotationsordner ) zur Verfügung gestellt, um den Lesern bei der Replikation der Ergebnisse zu helfen. Hinweis: Für bestimmte Datensätze haben wir möglicherweise Präfixe aus den Beispiel -IDs entfernt. Zum Beispiel wurde im Fall von ImagEnet "ILSVRC2012_VAL_00031094.jpEG" auf "00031094.jpeg" modifiziert.
| DTD | Eurosat | Sun397 | RAF-DB | Caltech101 | ImageNet-1K | FGVC-Flugzeug | Blume102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46,8 | 59,2 | 68,7 | 93.7 | 63.1 | 56.6 | 69.1 |
| Etikett | Etikett | Etikett | Etikett | Etikett | Etikett | Etikett | Etikett |
| Stanford Cars | Food101 | Oxford -Haustiere | UCF-101 | HMDB-51 | Kinetik-400 | Modellnet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86,2 | 90,8 | 83.7 | 58,8 | 58,8 | 66,9 |
| Etikett | Etikett | Etikett | Etikett | Etikett | Etikett | Etikett |
Mit den bereitgestellten Vorhersage- und Annotationsdateien können Sie unsere Top-1/Top-5-Genauigkeitsergebnisse mit dem Skript calculate_acc.py reproduzieren.
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.pyFür die Anleitung zum Einrichten und Ausführen der GPT-4-API empfehlen wir Ihnen, die offizielle OpenAI-QuickStart-Dokumentation zu überprüfen,
Wenn Sie unseren Code in Ihrer Recherche verwenden oder sich auf die Ergebnisse beziehen möchten, spielen Sie bitte Star? dieses Repo und verwenden Sie die folgenden Bibtex? Eintrag.
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}Diese Bewertung basiert auf den hervorragenden Werken:
Wir danken diesen Mitwirkenden aufrichtig.
Bei Fragen können Sie sich gerne ein Problem einreichen.