Text2ImageDescription Text2ImageDescription

Text2ImageDescription

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

text2imagedescription

โครงการมี 2 ส่วนหลัก:

การดึงภาพ: ได้รับข้อความค้นหาดึงภาพจากชุดข้อมูลที่เกี่ยวข้องกับการสืบค้น
การสร้างภาพคำอธิบาย: ได้รับข้อความค้นหาสร้างคำอธิบายสำหรับภาพที่เกี่ยวข้องกับการสืบค้นมากที่สุด

การดึงภาพ

ส่วนการดึงภาพของโครงการใช้โมเดล OpenAI Clip ที่ผ่านการฝึกอบรมล่วงหน้า (https://github.com/openai/clip) เพื่อดึงภาพจากชุดข้อมูลที่เกี่ยวข้องกับการสืบค้นข้อความที่กำหนด ชุดข้อมูลที่ใช้สำหรับโครงการนี้คือชุดข้อมูล Pascal VOC 2012 ชุดข้อมูลมีภาพประมาณ 3,500 ภาพ (การตรวจสอบความถูกต้องของรถไฟ +) โมเดลคลิปใช้เพื่อเข้ารหัสแบบสอบถามข้อความและรูปภาพในชุดข้อมูล ความคล้ายคลึงกันระหว่างการสืบค้นข้อความและภาพคำนวณโดยใช้ความคล้ายคลึงกันของโคไซน์ ภาพจะถูกจัดอันดับตามคะแนนความคล้ายคลึงกันและภาพ K ด้านบนจะถูกส่งคืน

การสร้างภาพคำอธิบาย

ภาพคำอธิบายภาพส่วนหนึ่งของโครงการใช้ MISTRAL-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) เพื่อสร้างคำอธิบายสำหรับการสืบค้นอินพุต

การใช้งาน

ในการเรียกใช้โครงการให้ทำตามขั้นตอนด้านล่าง:

โคลนที่เก็บ
เรียกใช้ Notebook code.ipynb

ผลงาน

ทรัพยากร: 12 GB GPU (Nvidia T4)
การค้นหารูปภาพ: ~ 50 มิลลิวินาที
คำอธิบายการสร้าง: การสตรีมเริ่มต้นภายในประมาณ 2.5 วินาทีโดยบรรลุอัตราโทเค็น 40 ต่อวินาที