Wenhao Wu 1,2 , Huanjin Yao 2,3 , Mengxi Zhang 2,4 , Yuxin Song 2 , Wanli Ouyang 5 , Jingdong Wang 2
1 La Universidad de Sydney, 2 Baidu, 3 Tsinghua University, 4 Tianjin University, 5 La Universidad China de Hong Kong
Este trabajo profundiza en una línea de base esencial pero imprescindible a la luz de los últimos avances en inteligencia artificial generativa (Genai): la utilización de GPT-4 para la comprensión visual. Nos centramos en la evaluación de las capacidades lingüísticas y visuales de GPT-4 en tareas de reconocimiento visual de cero disparos. Para garantizar una evaluación integral, hemos realizado experimentos en tres modalidades (imágenes, videos y nubes puntuales, lo que abarca un total de 16 puntos de referencia académicos populares.

Clasificador de revisión: transferir modelos en idioma de visión para el reconocimiento de video
Wenhao Wu, Zhun Sun, Wanli Ouyang
Exploración de conocimiento intermodal bidireccional para el reconocimiento de videos con modelos de lenguaje de visión previamente capacitado
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
CAP4Video: ¿Qué pueden hacer los subtítulos auxiliares para la recuperación de videos de texto?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Aceptado por CVPR 2023 como destacado? |

Reconocimiento visual de shot cero aprovechando las capacidades lingüísticas y visuales de GPT-4.

Tenemos oraciones descriptivas previamente generadas para todas las categorías en los conjuntos de datos, que puede encontrar en la carpeta GPT_Generated_Prompts . ¡Disfruta explorando!
También hemos proporcionado el script de ejemplo para ayudarlo a generar descripciones utilizando GPT-4. Para obtener orientación sobre esto, consulte el archivo Generate_Prompt.py. ¡Feliz codificación! Consulte la carpeta de configuración para obtener información detallada en todos los conjuntos de datos utilizados en nuestro proyecto.
Ejecute el siguiente comando para generar descripciones con GPT-4.
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
Compartimos un script de ejemplo que demuestra cómo usar la API GPT-4V para predicciones de disparo cero en el conjunto de datos DTD. Consulte el archivo gpt4v_zs.py para obtener una guía paso a paso sobre la implementación de esto. ¡Esperamos que te ayude a comenzar con facilidad!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.py¡Todos los resultados están disponibles en la carpeta GPT4V_ZS_RESULTS ! Además, hemos proporcionado el enlace de conjuntos de datos junto con sus verdades terrestres correspondientes (carpeta de anotaciones ) para ayudar a los lectores a replicar los resultados. Nota: Para ciertos conjuntos de datos, es posible que hayamos eliminado los prefijos de las ID de muestra. Por ejemplo, en el caso de ImageNet, "ILSVRC2012_VAL_00031094.jpeg" se modificó a "00031094.jpeg".
| Dtd | Eurosat | Sun397 | RAF-DB | Caltech101 | Imagenet-1k | Avión fgvc | Flor102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta |
| Autos de Stanford | Alimentos101 | Mascotas de oxford | UCF-101 | HMDB-51 | Cinética-400 | Modelnet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta | Etiqueta |
Con los archivos de predicción y anotación proporcionados, puede reproducir nuestros resultados de precisión TOP-1/TOP-5 con el script calculado_acc.py.
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.pyPara obtener orientación sobre cómo configurar y ejecutar la API GPT-4, recomendamos consultar la documentación oficial de OpenAI QuickStart disponible en: OpenAI QuickStart Guide.
Si usa nuestro código en su investigación o desea referirse a los resultados, ¿estrella? este repositorio y usar el siguiente bibtex? entrada.
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}Esta evaluación se basa en los excelentes obras:
Extendemos nuestra sincera gratitud a estos contribuyentes.
Para cualquier pregunta, no dude en presentar un problema.