تنزيل GPT4Vis - تنزيل رمز المصدر GPT4Vis

GPT4Vis

كود الذكاء الاصطناعي

1.0.0

تنزيل

GPT4VIS: ما الذي يمكن أن يفعله GPT-4 من أجل التعرف المرئي الصفري؟

إذا كنت تحب مشروعنا ، فيرجى إعطائنا نجمة على Github للحصول على آخر تحديث.

Wenhao Wu ^1،2 ، Huanjin Yao ^2،3 ، Mengxi Zhang ^2،4 ، Yuxin Song ² ، Wanli Ouyang ⁵ ، Jingdong Wang ²

¹ جامعة سيدني ، ² بايدو ، ³ جامعة تسينغهوا ، ⁴ جامعة تيانجين ، ⁵ جامعة هونغ كونغ الصينية

يتحول هذا العمل إلى خط أساسي أساسي ، ولكن يجب أن يعرف في ضوء أحدث التطورات في الذكاء الاصطناعي التوليدي (Genai): استخدام GPT-4 للفهم البصري. نركز على تقييم القدرات اللغوية والبصرية لـ GPT-4 في مهام التعرف المرئي صفراً. لضمان تقييم شامل ، قمنا بإجراء تجارب عبر ثلاث طرائق - التصورات ، مقاطع الفيديو ، والغيوم النقطية - ما مجموعه 16 معيارًا أكاديميًا شعبيًا.

لديّ أيضًا مشاريع أخرى عبر الوسائط التي قد تهمك.

إعادة النظر في المصنف: نقل نماذج لغة الرؤية للتعرف على الفيديو
Wenhao Wu ، Zhun Sun ، Wanli Ouyang

استكشاف المعرفة عبر الوسائط ثنائية الاتجاه للاعتراف بالفيديو مع نماذج لغة الرؤية التي تم تدريبها مسبقًا
Wenhao Wu ، Xiaohan Wang ، Haipeng Luo ، Jingdong Wang ، Yi Yang ، Wanli Ouyang

CAP4VIDEO: ما الذي يمكن أن تفعله التسميات التوضيحية المساعدة لاسترجاع النص النصي؟
Wenhao Wu ، Haipeng Luo ، Bo Fang ، Jingdong Wang ، Wanli Ouyang
قبلت CVPR 2023 AS؟ تسليط الضوء؟ |

أخبار

[7 مارس ، 2024] بسبب الإزالة الأخيرة لحدود RPD (طلب يوميًا) على واجهة برمجة تطبيقات GPT-4V ، قمنا بتحديث تنبؤاتنا لجميع مجموعات البيانات باستخدام اختبار واحد قياسي (عينة واحدة لكل طلب). تحقق من نتائج GPT4V والحقيقة الأرضية ومجموعات البيانات التي شاركناها من أجلك! كرؤوس ، قم بإجراء جميع الاختبارات بمجرد أن يكلف 4000 دولار+؟.
[28 نوفمبر ، 2023] نطلق تقريرنا في Arxiv.
[27 نوفمبر ، 2023] تم إصدار مطالباتنا. شكرا لنجمك؟.

ملخص

تم تقييم نظرة عامة على 16 مجموعات بيانات قياسية شهيرة ، والتي تضم صورًا ومقاطع فيديو وغيوم نقاط.

التعرف المرئي صفريًا على الاستفادة من القدرات اللغوية والبصرية لـ GPT-4.

أوصاف تم إنشاؤها من GPT-4

لدينا جمل وصفية تم إنشاؤها مسبقًا لجميع الفئات عبر مجموعات البيانات ، والتي يمكنك العثور عليها في مجلد GPT_Generated_Prompts . استمتع بالاستكشاف!
لقد قدمنا أيضًا برنامج النصي المثال لمساعدتك في إنشاء أوصاف باستخدام GPT-4. للحصول على إرشادات حول هذا ، يرجى الرجوع إلى ملف cenery_prompt.py. ترميز سعيد! يرجى الرجوع إلى مجلد التكوين للحصول على معلومات مفصلة عن جميع مجموعات البيانات المستخدمة في مشروعنا.

قم بتنفيذ الأمر التالي لإنشاء أوصاف مع GPT-4.

 # To run the script for specific dataset, simply update the following line with the name of the dataset you're working with: 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python generate_prompt.py

GPT-4V (ISION) للاعتراف البصري

نشارك نصيًا مثالًا يوضح كيفية استخدام واجهة برمجة تطبيقات GPT-4V للتنبؤات الصفرية على مجموعة بيانات DTD. يرجى الرجوع إلى ملف gpt4v_zs.py للحصول على دليل خطوة بخطوة حول تنفيذ هذا. نأمل أن يساعدك في البدء بكل سهولة!
```
 # GPT4V zero-shot recognition script. 
# dataset_name = ["Dataset Name Here"]   # e.g., dtd
python GPT4V_ZS.py
```
جميع النتائج متوفرة في مجلد GPT4V_ZS_RESULTS ! بالإضافة إلى ذلك ، قدمنا رابط مجموعات البيانات إلى جانب حقائقها المقابلة (مجلد التعليقات التوضيحية ) لمساعدة القراء في تكرار النتائج. ملاحظة: بالنسبة لبعض مجموعات البيانات ، ربما قمنا بإزالة البادئات من معرفات العينة. على سبيل المثال ، في حالة ImageNet ، تم تعديل "ILSVRC2012_VAL_00031094.JPEG" إلى "00031094.jpeg".

DTD	Eurosat	Sun397	RAF-DB	Caltech101	ImageNet-1k	FGVC-AIRCRAFT	Flower102
57.7	46.8	59.2	68.7	93.7	63.1	56.6	69.1
ملصق	ملصق	ملصق	ملصق	ملصق	ملصق	ملصق	ملصق

سيارات ستانفورد	Food101	الحيوانات الأليفة أكسفورد	UCF-101	HMDB-51	حركية-400	ModelNet-10
62.7	86.2	90.8	83.7	58.8	58.8	66.9
ملصق	ملصق	ملصق	ملصق	ملصق	ملصق	ملصق

مع ملفات التنبؤ والتعليقات المتوفرة المقدمة ، يمكنك إعادة إنتاج نتائج الدقة الأولى -1/أعلى 5 مع البرنامج النصي COLACUTER_ACC.PY.
```
 # pred_json_path = 'GPT4V_ZS_Results/imagenet.json'
# gt_json_path = 'annotations/imagenet_gt.json'
python calculate_acc.py
```

متطلبات

للحصول على إرشادات حول إعداد وتشغيل واجهة برمجة تطبيقات GPT-4 ، نوصي بمراجعة وثائق Openai QuickStart الرسمية المتاحة على: Openai QuickStart Guide.

؟ Bibtex & الاقتباس

إذا كنت تستخدم التعليمات البرمجية الخاصة بنا في بحثك أو ترغب في الرجوع إلى النتائج ، فالرجاء نجمة؟ هذا الريبو واستخدام bibtex التالي؟ دخول.

 @article { GPT4Vis ,
  title = { GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? } ,
  author = { Wu, Wenhao and Yao, Huanjin and Zhang, Mengxi and Song, Yuxin and Ouyang, Wanli and Wang, Jingdong } ,
  booktitle = { arXiv preprint arXiv:2311.15732 } ,
  year = { 2023 }
}