Download do GPT4Vis - download do código -fonte GPT4Vis

GPT4Vis

Código-Fonte de IA

1.0.0

Baixar

GPT4VIS: O que o GPT-4 pode fazer para o reconhecimento visual de tiro zero?

Se você gosta do nosso projeto, dê -nos uma estrela no Github para obter mais recente atualização.

Wenhao Wu ^1,2 , Huanjin Yao ^2,3 , Mengxi Zhang ^2,4 , Yuxin Song ² , Wanli Ouyang ⁵ , Jingdong Wang ²

¹ Universidade de Sydney, ² Baidu, ³ Tsinghua University, ⁴ Universidade de Tianjin, ⁵ da Universidade Chinesa de Hong Kong

Este trabalho investiga uma linha de base essencial, mas obrigatória, à luz dos últimos avanços na inteligência artificial generativa (Genai): a utilização do GPT-4 para o entendimento visual. Centramos na avaliação dos recursos lingüísticos e visuais do GPT-4 em tarefas de reconhecimento visual com tiro zero. Para garantir uma avaliação abrangente, realizamos experimentos em três modalidades - imagens, vídeos e nuvens de ponto - divulgando um total de 16 benchmark acadêmico popular.

Eu também tenho outros projetos cruzados que podem lhe interessar.

Revisitando Classificador: Transferência de Modelos de Languagem da Visão para Reconhecimento de Vídeo
Wenhao Wu, Zhun Sun, Wanli Ouyang

Exploração de conhecimento transversal bidirecional para reconhecimento de vídeo com modelos de linguagem de visão pré-treinados
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang

Cap4Video: O que as legendas auxiliares podem fazer para recuperar o vídeo-video?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Aceito pelo CVPR 2023 como? Destaque? |

Notícias

[7 de março de 2024] Devido à recente remoção de limites de RPD (solicitação por dia) na API GPT-4V, atualizamos nossas previsões para todos os conjuntos de dados usando testes únicos padrão (uma amostra por solicitação). Confira os resultados do GPT4V , a verdade e os conjuntos de dados que compartilhamos para você! Como um aviso, a execução de todos os testes uma vez custa em torno de US $ 4000+?.
[28 de novembro de 2023] Lançamos nosso relatório em Arxiv.
[27 de novembro de 2023] Nossos prompts foram divulgados. Obrigado pela sua estrela?

Visão geral

Uma visão geral de 16 conjuntos de dados populares de referência populares, compreendendo imagens, vídeos e nuvens de pontos.

O reconhecimento visual zero-tiro que alavanca os recursos lingüísticos e visuais do GPT-4.

Descrições geradas do GPT-4

Temos frases descritivas pré-geradas para todas as categorias nos conjuntos de dados, que você pode encontrar na pasta GPT_Generated_Prompts . Aproveite explorar!
Também fornecemos o script de exemplo para ajudá-lo a gerar descrições usando o GPT-4. Para obter orientações sobre isso, consulte o arquivo generate_prompt.py. Codificação feliz! Consulte a pasta de configuração para obter informações detalhadas sobre todos os conjuntos de dados usados em nosso projeto.

Execute o seguinte comando para gerar descrições com o GPT-4.

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

GPT-4V (ISION) para reconhecimento visual

Compartilhamos um script de exemplo que demonstra como usar a API GPT-4V para previsões de tiro zero no conjunto de dados DTD. Consulte o arquivo gpt4v_zs.py para obter um guia passo a passo sobre como implementar isso. Esperamos que isso ajude você a começar com facilidade!
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
Todos os resultados estão disponíveis na pasta GPT4V_ZS_RESULTS ! Além disso, fornecemos o link dos conjuntos de dados , juntamente com as verdades do solo correspondentes (pasta anotações ) para ajudar os leitores a replicar os resultados. Nota: Para determinados conjuntos de dados, podemos ter removido prefixos dos IDs de amostra. Por exemplo, no caso do Imagenet, "ILSVRC2012_VAL_00031094.JPEG" foi modificado para "00031094.jpeg".

Dtd	Eurosat	Sun397	RAF-DB	Caltech101	Imagenet-1k	FGVC-Aircraft	FLOR102
57.7	46.8	59.2	68.7	93.7	63.1	56.6	69.1
Rótulo	Rótulo	Rótulo	Rótulo	Rótulo	Rótulo	Rótulo	Rótulo

Carros Stanford	Food101	Oxford Pets	UCF-101	HMDB-51	Cinetics-400	ModelNet-10
62.7	86.2	90.8	83.7	58.8	58.8	66.9
Rótulo	Rótulo	Rótulo	Rótulo	Rótulo	Rótulo	Rótulo

Com os arquivos de previsão e anotação fornecidos, você pode reproduzir nossos resultados de precisão Top-1/Top-5 com o script calcular_acc.py.
```
 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py
```

Exigência

Para obter orientações sobre a configuração e a execução da API do GPT-4, recomendamos verificar a documentação oficial do OpenAi QuickStart disponível em: OpenAI Quickstart Guide.

? Bibtex e citação

Se você usar nosso código em sua pesquisa ou deseja consultar os resultados, por favor, estrela? este repo e usar o seguinte Bibtex? entrada.

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}

? Sustctomment

Esta avaliação é construída sobre os excelentes trabalhos:

Clipe: Aprendendo modelos visuais transferíveis da supervisão da linguagem natural
GPT-4
Text4Vis: transferindo modelos de linguagem da visão para reconhecimento visual: uma perspectiva de classificador

Estendemos nossa sincera gratidão a esses colaboradores.