Wenhao Wu 1,2 , Huanjin Yao 2,3 , Mengxi Zhang 2,4 , Yuxin Song 2 , Wanli Ouyang 5 , Jingdong Wang 2
1 Universidade de Sydney, 2 Baidu, 3 Tsinghua University, 4 Universidade de Tianjin, 5 da Universidade Chinesa de Hong Kong
Este trabalho investiga uma linha de base essencial, mas obrigatória, à luz dos últimos avanços na inteligência artificial generativa (Genai): a utilização do GPT-4 para o entendimento visual. Centramos na avaliação dos recursos lingüísticos e visuais do GPT-4 em tarefas de reconhecimento visual com tiro zero. Para garantir uma avaliação abrangente, realizamos experimentos em três modalidades - imagens, vídeos e nuvens de ponto - divulgando um total de 16 benchmark acadêmico popular.

Revisitando Classificador: Transferência de Modelos de Languagem da Visão para Reconhecimento de Vídeo
Wenhao Wu, Zhun Sun, Wanli Ouyang
Exploração de conhecimento transversal bidirecional para reconhecimento de vídeo com modelos de linguagem de visão pré-treinados
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
Cap4Video: O que as legendas auxiliares podem fazer para recuperar o vídeo-video?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Aceito pelo CVPR 2023 como? Destaque? |

O reconhecimento visual zero-tiro que alavanca os recursos lingüísticos e visuais do GPT-4.

Temos frases descritivas pré-geradas para todas as categorias nos conjuntos de dados, que você pode encontrar na pasta GPT_Generated_Prompts . Aproveite explorar!
Também fornecemos o script de exemplo para ajudá-lo a gerar descrições usando o GPT-4. Para obter orientações sobre isso, consulte o arquivo generate_prompt.py. Codificação feliz! Consulte a pasta de configuração para obter informações detalhadas sobre todos os conjuntos de dados usados em nosso projeto.
Execute o seguinte comando para gerar descrições com o GPT-4.
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
Compartilhamos um script de exemplo que demonstra como usar a API GPT-4V para previsões de tiro zero no conjunto de dados DTD. Consulte o arquivo gpt4v_zs.py para obter um guia passo a passo sobre como implementar isso. Esperamos que isso ajude você a começar com facilidade!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.pyTodos os resultados estão disponíveis na pasta GPT4V_ZS_RESULTS ! Além disso, fornecemos o link dos conjuntos de dados , juntamente com as verdades do solo correspondentes (pasta anotações ) para ajudar os leitores a replicar os resultados. Nota: Para determinados conjuntos de dados, podemos ter removido prefixos dos IDs de amostra. Por exemplo, no caso do Imagenet, "ILSVRC2012_VAL_00031094.JPEG" foi modificado para "00031094.jpeg".
| Dtd | Eurosat | Sun397 | RAF-DB | Caltech101 | Imagenet-1k | FGVC-Aircraft | FLOR102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| Rótulo | Rótulo | Rótulo | Rótulo | Rótulo | Rótulo | Rótulo | Rótulo |
| Carros Stanford | Food101 | Oxford Pets | UCF-101 | HMDB-51 | Cinetics-400 | ModelNet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| Rótulo | Rótulo | Rótulo | Rótulo | Rótulo | Rótulo | Rótulo |
Com os arquivos de previsão e anotação fornecidos, você pode reproduzir nossos resultados de precisão Top-1/Top-5 com o script calcular_acc.py.
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.pyPara obter orientações sobre a configuração e a execução da API do GPT-4, recomendamos verificar a documentação oficial do OpenAi QuickStart disponível em: OpenAI Quickstart Guide.
Se você usar nosso código em sua pesquisa ou deseja consultar os resultados, por favor, estrela? este repo e usar o seguinte Bibtex? entrada.
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}Esta avaliação é construída sobre os excelentes trabalhos:
Estendemos nossa sincera gratidão a esses colaboradores.
Para qualquer dúvida, sinta -se à vontade para apresentar um problema.