Wenhao Wu 1,2 , Huanjin Yao 2,3 , Mengxi Zhang 2,4 , Yuxin Song 2 , Wanli Ouyang 5 , Jingdong Wang 2
1 The University of Sydney, 2 Baidu, 3 Tsinghua University, 4 Tianjin University, 5 The China University of Hong Kong
Karya ini menggali garis dasar yang penting, namun harus diketahui mengingat kemajuan terbaru dalam Kecerdasan Buatan Generatif (Genai): pemanfaatan GPT-4 untuk pemahaman visual. Kami berpusat pada evaluasi kemampuan linguistik dan visual GPT-4 dalam tugas pengenalan visual nol-shot. Untuk memastikan evaluasi yang komprehensif, kami telah melakukan eksperimen di tiga modalitas - citra, video, dan awan titik - menghasilkan total 16 tolok ukur akademik populer.

Revisiting Classifier: Mentransfer model visi-bahasa untuk pengenalan video
Wenhao Wu, Zhun Sun, Wanli Ouyang
Eksplorasi pengetahuan lintas-modal dua arah untuk pengenalan video dengan model bahasa penglihatan pra-terlatih
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
CAP4Video: Apa yang dapat dilakukan oleh caption bantu untuk pengambilan teks-video?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Diterima oleh CVPR 2023 sebagai? Sorotan? |

Pengenalan visual Zero-shot memanfaatkan kemampuan linguistik dan visual GPT-4.

Kami memiliki kalimat deskriptif yang telah dihasilkan sebelumnya untuk semua kategori di seluruh dataset, yang dapat Anda temukan di folder GPT_Generated_Prompts . Nikmati penjelajahan!
Kami juga telah memberikan contoh skrip untuk membantu Anda menghasilkan deskripsi menggunakan GPT-4. Untuk panduan ini, silakan merujuk ke file generate_promppt.py. Happy Coding! Silakan merujuk ke folder konfigurasi untuk informasi terperinci tentang semua set data yang digunakan dalam proyek kami.
Jalankan perintah berikut untuk menghasilkan deskripsi dengan GPT-4.
# To run the script for specific dataset, simply update the following line with the name of the dataset you're working with:
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python generate_prompt.py
Kami berbagi contoh skrip yang menunjukkan cara menggunakan API GPT-4V untuk prediksi nol-shot pada dataset DTD. Silakan merujuk ke file gpt4v_zs.py untuk panduan langkah demi langkah tentang menerapkan ini. Kami berharap ini membantu Anda memulai dengan mudah!
# GPT4V zero-shot recognition script.
# dataset_name = ["Dataset Name Here"] # e.g., dtd
python GPT4V_ZS.pySemua hasil tersedia di folder GPT4V_ZS_RESULTS ! Selain itu, kami telah menyediakan tautan set data bersama dengan kebenaran tanah yang sesuai (folder anotasi ) untuk membantu pembaca dalam mereplikasi hasilnya. Catatan: Untuk set data tertentu, kami mungkin telah menghapus awalan dari ID sampel. Misalnya, dalam kasus Imagenet, "ILSVRC2012_VAL_00031094.JPEG" telah dimodifikasi menjadi "00031094.jpeg".
| Dtd | Eurosat | Sun397 | RAF-DB | Caltech101 | Imagenet-1k | FGVC-AIRCraft | Bunga102 |
|---|---|---|---|---|---|---|---|
| 57.7 | 46.8 | 59.2 | 68.7 | 93.7 | 63.1 | 56.6 | 69.1 |
| Label | Label | Label | Label | Label | Label | Label | Label |
| Stanford Cars | Food101 | Hewan peliharaan Oxford | UCF-101 | HMDB-51 | Kinetics-400 | Modelnet-10 |
|---|---|---|---|---|---|---|
| 62.7 | 86.2 | 90.8 | 83.7 | 58.8 | 58.8 | 66.9 |
| Label | Label | Label | Label | Label | Label | Label |
Dengan prediksi dan file anotasi yang disediakan, Anda dapat mereproduksi hasil akurasi top-1/top-5 kami dengan skrip calculate_acc.py.
# pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.pyUntuk panduan tentang pengaturan dan menjalankan API GPT-4, kami sarankan untuk memeriksa dokumentasi OpenAi QuickStart resmi yang tersedia di: OpenAI QuickStart Guide.
Jika Anda menggunakan kode kami dalam penelitian Anda atau ingin merujuk hasilnya, silakan membintangi? Repo ini dan menggunakan Bibtex berikut? pintu masuk.
@article { GPT4Vis ,
title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
booktitle = { arXiv preprint arXiv:2311.15732 } ,
year = { 2023 }
}Evaluasi ini dibangun di atas pekerjaan yang sangat baik:
Kami menyampaikan rasa terima kasih yang tulus kepada para kontributor ini.
Untuk pertanyaan apa pun, jangan ragu untuk mengajukan masalah.