โครงการมี 2 ส่วนหลัก:
ส่วนการดึงภาพของโครงการใช้โมเดล OpenAI Clip ที่ผ่านการฝึกอบรมล่วงหน้า (https://github.com/openai/clip) เพื่อดึงภาพจากชุดข้อมูลที่เกี่ยวข้องกับการสืบค้นข้อความที่กำหนด ชุดข้อมูลที่ใช้สำหรับโครงการนี้คือชุดข้อมูล Pascal VOC 2012 ชุดข้อมูลมีภาพประมาณ 3,500 ภาพ (การตรวจสอบความถูกต้องของรถไฟ +) โมเดลคลิปใช้เพื่อเข้ารหัสแบบสอบถามข้อความและรูปภาพในชุดข้อมูล ความคล้ายคลึงกันระหว่างการสืบค้นข้อความและภาพคำนวณโดยใช้ความคล้ายคลึงกันของโคไซน์ ภาพจะถูกจัดอันดับตามคะแนนความคล้ายคลึงกันและภาพ K ด้านบนจะถูกส่งคืน
ภาพคำอธิบายภาพส่วนหนึ่งของโครงการใช้ MISTRAL-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) เพื่อสร้างคำอธิบายสำหรับการสืบค้นอินพุต
ในการเรียกใช้โครงการให้ทำตามขั้นตอนด้านล่าง:
code.ipynb ลองดูวิดีโอสาธิตเพื่อดู Text2Imagedescription ในการดำเนินการ:
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ใบอนุญาตสำหรับรายละเอียด