Wenhao Wu 1,2 ,Huanjin Yao 2,3 ,Mengxi Zhang 2,4 ,Yuxin Song 2 ,Wanli Ouyang 5 ,Jingdong Wang 2
1悉尼大学, 2拜图,第3岛大学,天津大学4号,香港中文大学
鉴于生成人工智能(Genai)的最新进步:GPT-4用于视觉理解的利用,这项工作探究了必不可少但必不可少的基线。我们以零击目视觉识别任务中GPT-4的语言和视觉功能的评估为中心。为了确保全面的评估,我们已经进行了三种模式(图像,视频和点云)的实验,共有16个流行的学术基准。

重新访问分类器:转移视频识别的视觉语言模型
Wenhao Wu,Zhun Sun,Wanli Ouyang
双向跨模式知识探索视频识别,并具有预训练的视觉模型
Wenhao Wu,Xiaohan Wang,Haipeng Luo,Jingdong Wang,Yi Yang,Wanli Ouyang
CAP4VIDEO:辅助字幕可以为文本视频检索做什么?
Wenhao Wu,Haipeng Luo,Bo Fang,Jingdong Wang,Wanli Ouyang
被CVPR 2023接受为“亮点? |

零拍的视觉识别利用GPT-4的语言和视觉功能。

我们对数据集的所有类别进行了预先生成的描述性句子,您可以在gpt_generated_prompts文件夹中找到。喜欢探索!
我们还提供了示例脚本,以帮助您使用GPT-4生成描述。有关此指南,请参阅generate_prompt.py文件。愉快的编码!请参阅配置文件夹以获取有关我们项目中所有数据集的详细信息。
执行以下命令使用GPT-4生成描述。
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
我们共享一个示例脚本,该脚本演示了如何在DTD数据集上使用GPT-4V API进行零摄像的预测。请参阅gpt4v_zs.s.py文件,以获取有关实施此文件的分步指南。我们希望它可以帮助您轻松入门!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.py所有结果均在GPT4V_ZS_RESULTS文件夹中可用!此外,我们还提供了数据集链接及其相应的地面真相(注释文件夹),以帮助读者复制结果。注意:对于某些数据集,我们可能已经从示例ID中删除了前缀。例如,在Imagenet的情况下,将“ ILSVRC2012_VAL_00031094.JPEG”修改为“ 00031094.jpeg”。
| DTD | EUROSAT | 太阳397 | Raf-DB | Caltech101 | Imagenet-1k | fgvc-aircraft | Flower102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| 标签 | 标签 | 标签 | 标签 | 标签 | 标签 | 标签 | 标签 |
| 斯坦福汽车 | Food101 | 牛津宠物 | UCF-101 | HMDB-51 | 动力学400 | ModelNet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| 标签 | 标签 | 标签 | 标签 | 标签 | 标签 | 标签 |
使用提供的预测和注释文件,您可以使用calculate_acc.py脚本复制我们的top-1/top-5精度结果。
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py有关设置和运行GPT-4 API的指南,我们建议您查看官方的OpenAI QuickStart文档可用:OpenAI QuickStart Guide。
如果您在研究中使用我们的代码或希望参考结果,请出演?此存储库并使用以下Bibtex?入口。
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}该评估是基于出色的作品的:
我们对这些贡献者表示衷心的感谢。
对于任何疑问,请随时提出问题。