GPT4VisダウンロードGPT4Visソースコードのダウンロード

GPT4Vis

AI ソースコード

1.0.0

ダウンロード

GPT4VIS：GPT-4はゼロショットの視覚認識のために何ができますか？

プロジェクトが気に入っている場合は、最新のアップデートのためにGitHubのスターをお願いします。

Wenhao Wu ^1,2 、Huanjin Yao ^2,3 、Mengxi Zhang ^2,4 、Yuxin Song ² 、Wanli Ouyang ⁵ 、Jingdong Wang ²

¹シドニー大学、 ²バイドゥ、 ³ Tsinghua University、 ⁴ Tianjin University、 ⁵香港中国大学

この作業は、生成人工知能（GENAI）の最新の進歩、視覚的理解のためのGPT-4の利用に照らして、本質的でありながら必須のベースラインを掘り下げます。ゼロショットの視覚認識タスクにおけるGPT-4の言語的および視覚的能力の評価に集中しています。包括的な評価を確保するために、イメージ、ビデオ、ポイントクラウドの3つのモダリティで実験を実施しました。

また、あなたに興味を持っている他のクロスモーダルプロジェクトもあります。

再検討分類器：ビデオ認識のためにビジョン言語モデルを転送します
Wenhao Wu、Zhun Sun、Wanli Oyang

事前に訓練されたビジョン言語モデルを使用したビデオ認識のための双方向クロスモーダル知識探査
Wenhao Wu、Xiaohan Wang、Haipeng Luo、Jingdong Wang、Yi Yang、Wanli Ouyang

Cap4Video：補助キャプションは、テキストビデオ取得に対して何ができますか？
Wenhao Wu、Haipeng Luo、Bo Fang、Jingdong Wang、Wanli Ouyang
CVPR 2023によって？ハイライトとして受け入れられていますか？ |

ニュース

[2024年3月7日] GPT-4V APIのRPD（1日あたりの要求）制限の最近の削除により、標準の単一テスト（要求ごとに1つのサンプル）を使用してすべてのデータセットの予測を更新しました。 GPT4Vの結果、グラウンドトゥルース、データセットをご覧ください。ヘッズアップとして、すべてのテストを実行すると、かつて約4000+？
[2023年11月28日] Arxivでレポートをリリースします。
[2023年11月27日]プロンプトがリリースされました。あなたの星をありがとう？

概要

画像、ビデオ、およびポイントクラウドで構成される16の人気のあるベンチマークデータセットの評価。

GPT-4の言語的および視覚的能力を活用するゼロショット視覚認識。

GPT-4から生成された説明

データセット全体のすべてのカテゴリに対して事前に生成された記述文があります。これは、 GPT_GENERATED_PROMPTSフォルダーで見つけることができます。探索を楽しんでください！
また、GPT-4を使用して説明を生成するのに役立つサンプルスクリプトも提供しました。これに関するガイダンスについては、Generate_prompt.pyファイルを参照してください。ハッピーコーディング！プロジェクトで使用されているすべてのデータセットの詳細については、 configフォルダーを参照してください。

次のコマンドを実行して、GPT-4で説明を生成します。

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

視覚認識のためのGPT-4V（ISION）

DTDデータセットでゼロショット予測にGPT-4V APIを使用する方法を示す例を共有します。これを実装する段階的なガイドについては、GPT4V_ZS.PYファイルを参照してください。簡単に始めるのに役立つことを願っています！
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
すべての結果は、 GPT4V_ZS_RESULTSフォルダーで入手できます！さらに、データセットリンクと、対応するグラウンドトゥルース（アノテーションフォルダー）を提供して、読者が結果を再現するのに役立ちました。注：特定のデータセットについては、サンプルIDからプレフィックスを削除した可能性があります。たとえば、Imagenetの場合、「ILSVRC2012_VAL_00031094.jpeg」は「00031094.jpeg」に変更されました。

DTD	ユーロサット	Sun397	RAF-DB	Caltech101	Imagenet-1K	fgvc-aircraft	Flower102
57.7	46.8	59.2	68.7	93.7	63.1	56.6	69.1
ラベル	ラベル	ラベル	ラベル	ラベル	ラベル	ラベル	ラベル

スタンフォード車	Food101	オックスフォードペット	UCF-101	HMDB-51	速度論-400	ModelNet-10
62.7	86.2	90.8	83.7	58.8	58.8	66.9
ラベル	ラベル	ラベル	ラベル	ラベル	ラベル	ラベル

提供された予測および注釈ファイルを使用すると、Calculate_acc.pyスクリプトでTOP-1/TOP-5の精度結果を再現できます。
```
 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py
```

要件

GPT-4 APIのセットアップと実行に関するガイダンスについては、Openai Quickstart Guideで利用可能な公式Openai QuickStartドキュメントをチェックすることをお勧めします。

？ bibtex＆citation

調査でコードを使用する場合、または結果を参照したい場合は、主演してください。このレポで、次のbibtexを使用しますか？エントリ。

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}