Wenhao Wu 1,2 ,Huanjin Yao 2,3 ,Mengxi Zhang 2,4 ,Yuxin Song 2 ,Wanli Ouyang 5 ,Jingdong Wang 2
1悉尼大學, 2拜圖,第3島大學,天津大學4號,香港中文大學
鑑於生成人工智能(Genai)的最新進步:GPT-4用於視覺理解的利用,這項工作探究了必不可少但必不可少的基線。我們以零擊目視覺識別任務中GPT-4的語言和視覺功能的評估為中心。為了確保全面的評估,我們已經進行了三種模式(圖像,視頻和點雲)的實驗,共有16個流行的學術基準。

重新訪問分類器:轉移視頻識別的視覺語言模型
Wenhao Wu,Zhun Sun,Wanli Ouyang
雙向跨模式知識探索視頻識別,並具有預訓練的視覺模型
Wenhao Wu,Xiaohan Wang,Haipeng Luo,Jingdong Wang,Yi Yang,Wanli Ouyang
CAP4VIDEO:輔助字幕可以為文本視頻檢索做什麼?
Wenhao Wu,Haipeng Luo,Bo Fang,Jingdong Wang,Wanli Ouyang
被CVPR 2023接受為“亮點? |

零拍的視覺識別利用GPT-4的語言和視覺功能。

我們對數據集的所有類別進行了預先生成的描述性句子,您可以在gpt_generated_prompts文件夾中找到。喜歡探索!
我們還提供了示例腳本,以幫助您使用GPT-4生成描述。有關此指南,請參閱generate_prompt.py文件。愉快的編碼!請參閱配置文件夾以獲取有關我們項目中所有數據集的詳細信息。
執行以下命令使用GPT-4生成描述。
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
我們共享一個示例腳本,該腳本演示瞭如何在DTD數據集上使用GPT-4V API進行零攝像的預測。請參閱gpt4v_zs.s.py文件,以獲取有關實施此文件的分步指南。我們希望它可以幫助您輕鬆入門!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.py所有結果均在GPT4V_ZS_RESULTS文件夾中可用!此外,我們還提供了數據集鏈接及其相應的地面真相(註釋文件夾),以幫助讀者復制結果。注意:對於某些數據集,我們可能已經從示例ID中刪除了前綴。例如,在Imagenet的情況下,將“ ILSVRC2012_VAL_00031094.JPEG”修改為“ 00031094.jpeg”。
| DTD | EUROSAT | 太陽397 | Raf-DB | Caltech101 | Imagenet-1k | fgvc-aircraft | Flower102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| 標籤 | 標籤 | 標籤 | 標籤 | 標籤 | 標籤 | 標籤 | 標籤 |
| 斯坦福汽車 | Food101 | 牛津寵物 | UCF-101 | HMDB-51 | 動力學400 | ModelNet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| 標籤 | 標籤 | 標籤 | 標籤 | 標籤 | 標籤 | 標籤 |
使用提供的預測和註釋文件,您可以使用calculate_acc.py腳本複制我們的top-1/top-5精度結果。
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py有關設置和運行GPT-4 API的指南,我們建議您查看官方的OpenAI QuickStart文檔可用:OpenAI QuickStart Guide。
如果您在研究中使用我們的代碼或希望參考結果,請出演?此存儲庫並使用以下Bibtex?入口。
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}該評估是基於出色的作品的:
我們對這些貢獻者表示衷心的感謝。
對於任何疑問,請隨時提出問題。