Wenhao Wu 1,2 , Huanjin Yao 2,3 , Mengxi Zhang 2,4 , Yuxin Song 2 , Wanli Ouyang 5 , Jingdong Wang 2
1 Université de Sydney, 2 Baidu, 3 Université Tsinghua, 4 Université Tianjin, 5 Université chinoise de Hong Kong
Ce travail se plonge dans une base essentielle, mais doit savoir à la lumière des dernières progrès de l'intelligence artificielle générative (Genai): l'utilisation de GPT-4 pour une compréhension visuelle. Nous nous concentrons sur l'évaluation des capacités linguistiques et visuelles de GPT-4 dans des tâches de reconnaissance visuelle zéro. Pour assurer une évaluation complète, nous avons mené des expériences sur trois modalités - images, vidéos et nuages ponctuels - en déplaçant un total de 16 référence académique populaire.

Revisiter le classificateur: transférer des modèles de vision en matière de reconnaissance vidéo
Wenhao Wu, Zhun Sun, Wanli Ouyang
Exploration de connaissances intermodales bidirectionnelles pour la reconnaissance vidéo avec des modèles pré-formés en langue de vision
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
Cap4video: Que peuvent faire les légendes auxiliaires pour la récupération de Text-Video?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Oulang
Accepté par CVPR 2023 comme? Highlight? |

Reconnaissance visuelle zéro tir en tirant parti des capacités linguistiques et visuelles de GPT-4.

Nous avons des phrases descriptives pré-générées pour toutes les catégories à travers les ensembles de données, que vous pouvez trouver dans le dossier GPT_Generated_Prompts . Profitez d'explorer!
Nous avons également fourni l'exemple de script pour vous aider à générer des descriptions à l'aide de GPT-4. Pour obtenir des conseils à ce sujet, veuillez vous référer au fichier generate_prompt.py. Codage heureux! Veuillez vous référer au dossier de configuration pour des informations détaillées sur tous les ensembles de données utilisés dans notre projet.
Exécutez la commande suivante pour générer des descriptions avec GPT-4.
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
Nous partageons un exemple de script qui montre comment utiliser l'API GPT-4V pour les prédictions zéro-shot sur l'ensemble de données DTD. Veuillez vous référer au fichier gpt4v_zs.py pour un guide étape par étape sur la mise en œuvre de cela. Nous espérons que cela vous aidera à démarrer avec facilité!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.pyTous les résultats sont disponibles dans le dossier GPT4V_ZS_RESULTS ! De plus, nous avons fourni le lien de jeu de données avec leurs vérités de sol (dossier Annotations ) correspondantes pour aider les lecteurs à reproduire les résultats. Remarque: Pour certains ensembles de données, nous avons peut-être supprimé les préfixes des ID d'échantillon. Par exemple, dans le cas d'imageNet, "ILSVRC2012_VAL_00031094.JPEG" a été modifié en "00031094.jpeg".
| Dtd | Eurosat | SUN397 | RAF-DB | Caltech101 | Imagenet-1k | FGVC-Aircraft | Fleur102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| Étiquette | Étiquette | Étiquette | Étiquette | Étiquette | Étiquette | Étiquette | Étiquette |
| Voitures de Stanford | Aliments101 | Animaux de compagnie d'Oxford | UCF-101 | HMDB-51 | Cinétique-400 | ModelNet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| Étiquette | Étiquette | Étiquette | Étiquette | Étiquette | Étiquette | Étiquette |
Avec les fichiers de prédiction et d'annotation fournis, vous pouvez reproduire nos résultats de précision top-1 / top-5 avec le script Calculate_acc.py.
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.pyPour obtenir des conseils sur la mise en place et l'exécution de l'API GPT-4, nous vous recommandons de consulter la documentation officielle de QuickStart OpenAI disponible sur: Openai QuickStart Guide.
Si vous utilisez notre code dans votre recherche ou si vous souhaitez vous référer aux résultats, veuillez jouer? ce repo et utilisez le bibtex suivant? entrée.
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}Cette évaluation est construite sur les excellentes œuvres:
Nous exprimons notre sincère gratitude à ces contributeurs.
Pour toute question, n'hésitez pas à déposer un problème.