Text2ImageDescription تنزيل - Text2ImageDescription Download تنزيل رمز المصدر

Text2ImageDescription

شفرة المصدر الأخرى

1.0.0

تنزيل

text2Imagedescription

يحتوي المشروع على جزأين رئيسيين:

استرجاع الصورة: بالنظر إلى استعلام نص ، استرجع الصور من مجموعة بيانات ذات صلة بالاستعلام.
وصف الصورة الجيل: إعطاء استعلام نصي ، قم بإنشاء وصف للصورة الأكثر صلة بالاستعلام.

استرجاع الصورة

يستخدم جزء استرجاع الصورة من المشروع نموذجًا لمقطع Openai الذي تم تدريبه مسبقًا (https://github.com/openai/clip) لاسترداد الصور من مجموعة بيانات ذات صلة باستعلام نص معين. مجموعة البيانات المستخدمة لهذا المشروع هي مجموعة بيانات Pascal Voc 2012. تحتوي مجموعة البيانات على حوالي 3500 صورة (Train + التحقق من الصحة). يتم استخدام نموذج المقطع لتشفير استعلام النص والصور الموجودة في مجموعة البيانات. يتم حساب التشابه بين استعلام النص والصور باستخدام تشابه جيب التمام. ثم يتم تصنيف الصور بناءً على درجة التشابه ويتم إرجاع أفضل صور K.

وصف وصف الصورة

يستخدم جزء توليد الصورة من المشروع نموذج MISTRAL-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) لإنشاء أوصاف لاستعلام الإدخال إعطاء.

الاستخدام

لتشغيل المشروع ، اتبع الخطوات أدناه:

استنساخ المستودع
قم بتشغيل code.ipynb الكمبيوتر المحمول.

أداء

المورد: 12 غيغابايت وحدة معالجة الرسومات (NVIDIA T4)
البحث عن الصور: ~ 50 ميلي ثانية.
الوصف الجيل: يبدأ التدفق في غضون 2.5 ثانية تقريبًا ، مما يحقق معدل 40 رمزًا في الثانية.