يحتوي المشروع على جزأين رئيسيين:
يستخدم جزء استرجاع الصورة من المشروع نموذجًا لمقطع Openai الذي تم تدريبه مسبقًا (https://github.com/openai/clip) لاسترداد الصور من مجموعة بيانات ذات صلة باستعلام نص معين. مجموعة البيانات المستخدمة لهذا المشروع هي مجموعة بيانات Pascal Voc 2012. تحتوي مجموعة البيانات على حوالي 3500 صورة (Train + التحقق من الصحة). يتم استخدام نموذج المقطع لتشفير استعلام النص والصور الموجودة في مجموعة البيانات. يتم حساب التشابه بين استعلام النص والصور باستخدام تشابه جيب التمام. ثم يتم تصنيف الصور بناءً على درجة التشابه ويتم إرجاع أفضل صور K.
يستخدم جزء توليد الصورة من المشروع نموذج MISTRAL-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) لإنشاء أوصاف لاستعلام الإدخال إعطاء.
لتشغيل المشروع ، اتبع الخطوات أدناه:
code.ipynb الكمبيوتر المحمول. تحقق من الفيديو التجريبي لمشاهدة text2Imagedescription في العمل:
تم ترخيص هذا المشروع بموجب ترخيص معهد ماساتشوستس للتكنولوجيا - راجع ملف الترخيص للحصول على التفاصيل.