GPT4Vis下載GPT4Vis源代碼下載

GPT4Vis

Ai源碼

1.0.0

下載

GPT4VIS：GPT-4可以為零射擊視覺識別做什麼？

如果您喜歡我們的項目，請在Github上給我們一顆星星以獲取最新更新。

Wenhao Wu ^1,2 ，Huanjin Yao ^2,3 ，Mengxi Zhang ^2,4 ，Yuxin Song ² ，Wanli Ouyang ⁵ ，Jingdong Wang ²

¹悉尼大學， ²拜圖，^第3島大學，天津大學⁴^號，香港中文大學

鑑於生成人工智能（Genai）的最新進步：GPT-4用於視覺理解的利用，這項工作探究了必不可少但必不可少的基線。我們以零擊目視覺識別任務中GPT-4的語言和視覺功能的評估為中心。為了確保全面的評估，我們已經進行了三種模式（圖像，視頻和點雲）的實驗，共有16個流行的學術基準。

我還有其他跨模式項目可能會讓您感興趣。

重新訪問分類器：轉移視頻識別的視覺語言模型
Wenhao Wu，Zhun Sun，Wanli Ouyang

雙向跨模式知識探索視頻識別，並具有預訓練的視覺模型
Wenhao Wu，Xiaohan Wang，Haipeng Luo，Jingdong Wang，Yi Yang，Wanli Ouyang

CAP4VIDEO：輔助字幕可以為文本視頻檢索做什麼？
Wenhao Wu，Haipeng Luo，Bo Fang，Jingdong Wang，Wanli Ouyang
被CVPR 2023接受為“亮點？ |

消息

[3月7日，2024年]由於最近刪除了GPT-4V API的RPD（每天請求）限制，因此我們使用標准單個測試（每個請求一個示例）更新了所有數據集的預測。查看我們為您共享的GPT4V結果，地面真相和數據集！作為抬頭，“運行所有測試”一旦成本約為$ 4000+？。
[2023年11月28日]我們在Arxiv發布報告。
[2023年11月27日]我們的提示已發布。謝謝你的明星？

概述

16個評估的流行基準數據集的概述，包括圖像，視頻和點雲。

零拍的視覺識別利用GPT-4的語言和視覺功能。

從GPT-4生成的描述

我們對數據集的所有類別進行了預先生成的描述性句子，您可以在gpt_generated_prompts文件夾中找到。喜歡探索！
我們還提供了示例腳本，以幫助您使用GPT-4生成描述。有關此指南，請參閱generate_prompt.py文件。愉快的編碼！請參閱配置文件夾以獲取有關我們項目中所有數據集的詳細信息。

執行以下命令使用GPT-4生成描述。

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

GPT-4V（ISION）用於視覺識別

我們共享一個示例腳本，該腳本演示瞭如何在DTD數據集上使用GPT-4V API進行零攝像的預測。請參閱gpt4v_zs.s.py文件，以獲取有關實施此文件的分步指南。我們希望它可以幫助您輕鬆入門！
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
所有結果均在GPT4V_ZS_RESULTS文件夾中可用！此外，我們還提供了數據集鏈接及其相應的地面真相（註釋文件夾），以幫助讀者復制結果。注意：對於某些數據集，我們可能已經從示例ID中刪除了前綴。例如，在Imagenet的情況下，將“ ILSVRC2012_VAL_00031094.JPEG”修改為“ 00031094.jpeg”。

DTD	EUROSAT	太陽397	Raf-DB	Caltech101	Imagenet-1k	fgvc-aircraft	Flower102
57.7	46.8	59.2	68.7	93.7	63.1	56.6	69.1
標籤	標籤	標籤	標籤	標籤	標籤	標籤	標籤

斯坦福汽車	Food101	牛津寵物	UCF-101	HMDB-51	動力學400	ModelNet-10
62.7	86.2	90.8	83.7	58.8	58.8	66.9
標籤	標籤	標籤	標籤	標籤	標籤	標籤

使用提供的預測和註釋文件，您可以使用calculate_acc.py腳本複制我們的top-1/top-5精度結果。

 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py

要求

有關設置和運行GPT-4 API的指南，我們建議您查看官方的OpenAI QuickStart文檔可用：OpenAI QuickStart Guide。

？ Bibtex＆Citation

如果您在研究中使用我們的代碼或希望參考結果，請出演？此存儲庫並使用以下Bibtex？入口。

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}