GPT4Vis下载GPT4Vis源代码下载

GPT4Vis

Ai源码

1.0.0

下载

GPT4VIS：GPT-4可以为零射击视觉识别做什么？

如果您喜欢我们的项目，请在Github上给我们一颗星星以获取最新更新。

Wenhao Wu ^1,2 ，Huanjin Yao ^2,3 ，Mengxi Zhang ^2,4 ，Yuxin Song ² ，Wanli Ouyang ⁵ ，Jingdong Wang ²

¹悉尼大学， ²拜图，^第3岛大学，天津大学⁴^号，香港中文大学

鉴于生成人工智能（Genai）的最新进步：GPT-4用于视觉理解的利用，这项工作探究了必不可少但必不可少的基线。我们以零击目视觉识别任务中GPT-4的语言和视觉功能的评估为中心。为了确保全面的评估，我们已经进行了三种模式（图像，视频和点云）的实验，共有16个流行的学术基准。

我还有其他跨模式项目可能会让您感兴趣。

重新访问分类器：转移视频识别的视觉语言模型
Wenhao Wu，Zhun Sun，Wanli Ouyang

双向跨模式知识探索视频识别，并具有预训练的视觉模型
Wenhao Wu，Xiaohan Wang，Haipeng Luo，Jingdong Wang，Yi Yang，Wanli Ouyang

CAP4VIDEO：辅助字幕可以为文本视频检索做什么？
Wenhao Wu，Haipeng Luo，Bo Fang，Jingdong Wang，Wanli Ouyang
被CVPR 2023接受为“亮点？ |

消息

[3月7日，2024年]由于最近删除了GPT-4V API的RPD（每天请求）限制，因此我们使用标准单个测试（每个请求一个示例）更新了所有数据集的预测。查看我们为您共享的GPT4V结果，地面真相和数据集！作为抬头，“运行所有测试”一旦成本约为$ 4000+？。
[2023年11月28日]我们在Arxiv发布报告。
[2023年11月27日]我们的提示已发布。谢谢你的明星？

概述

16个评估的流行基准数据集的概述，包括图像，视频和点云。

零拍的视觉识别利用GPT-4的语言和视觉功能。

从GPT-4生成的描述

我们对数据集的所有类别进行了预先生成的描述性句子，您可以在gpt_generated_prompts文件夹中找到。喜欢探索！
我们还提供了示例脚本，以帮助您使用GPT-4生成描述。有关此指南，请参阅generate_prompt.py文件。愉快的编码！请参阅配置文件夹以获取有关我们项目中所有数据集的详细信息。

执行以下命令使用GPT-4生成描述。

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

GPT-4V（ISION）用于视觉识别

我们共享一个示例脚本，该脚本演示了如何在DTD数据集上使用GPT-4V API进行零摄像的预测。请参阅gpt4v_zs.s.py文件，以获取有关实施此文件的分步指南。我们希望它可以帮助您轻松入门！
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
所有结果均在GPT4V_ZS_RESULTS文件夹中可用！此外，我们还提供了数据集链接及其相应的地面真相（注释文件夹），以帮助读者复制结果。注意：对于某些数据集，我们可能已经从示例ID中删除了前缀。例如，在Imagenet的情况下，将“ ILSVRC2012_VAL_00031094.JPEG”修改为“ 00031094.jpeg”。

DTD	EUROSAT	太阳397	Raf-DB	Caltech101	Imagenet-1k	fgvc-aircraft	Flower102
57.7	46.8	59.2	68.7	93.7	63.1	56.6	69.1
标签	标签	标签	标签	标签	标签	标签	标签

斯坦福汽车	Food101	牛津宠物	UCF-101	HMDB-51	动力学400	ModelNet-10
62.7	86.2	90.8	83.7	58.8	58.8	66.9
标签	标签	标签	标签	标签	标签	标签

使用提供的预测和注释文件，您可以使用calculate_acc.py脚本复制我们的top-1/top-5精度结果。

 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py

要求

有关设置和运行GPT-4 API的指南，我们建议您查看官方的OpenAI QuickStart文档可用：OpenAI QuickStart Guide。

？ Bibtex＆Citation

如果您在研究中使用我们的代码或希望参考结果，请出演？此存储库并使用以下Bibtex？入口。

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}