ที่เก็บนี้ใช้การฝึกอบรมการเรียนรู้ของเครื่องและการอนุมานโดยใช้ Generative AI (Genai) เพื่อตอบคำถามตามภาพที่ให้ไว้ โมเดลที่ผ่านการฝึกอบรมมาก่อนมีอยู่เพื่อให้ได้งานดังกล่าวอย่างไรก็ตามพวกเขาเป็น) ไม่สามารถปรับให้เข้ากับสถานการณ์เฉพาะโดเมน-ดังนั้นทำไมเราต้องปรับแต่งและ b) ไม่แสดงความสามารถที่จะนำไปใช้ในสภาพแวดล้อมการผลิต
เพื่อแก้ปัญหานี้โพสต์นี้แสดงวิธีการแยกแอตทริบิวต์ผลิตภัณฑ์เฉพาะโดเมนจากภาพผลิตภัณฑ์โดยปรับแต่ง VLM (รุ่น Vision-Language) ในชุดข้อมูลแฟชั่นโดยใช้ Amazon Sagemaker จากนั้นใช้ Bedrock Amazon เพื่อสร้างคำอธิบายผลิตภัณฑ์โดยใช้แอตทริบิวต์ที่แยกออกเป็นอินพุต
สำหรับคำแนะนำรายละเอียดของที่เก็บนี้โปรดดูที่บล็อกของเรา
ข้อมูลที่ใช้ในพื้นที่เก็บข้อมูลนี้นำมาจากชุดข้อมูล Kaggle Fashion Images และ USECASE ที่เราพยายามแก้ไขคือการสร้างคำอธิบายภาพสำหรับผลิตภัณฑ์แฟชั่นเหล่านี้สำหรับเว็บไซต์อีคอมเมิร์ซซึ่งเป็นงานที่ใช้เวลานานมากในอดีต คำอธิบายผลิตภัณฑ์คุณภาพสูงปรับปรุงความสามารถในการค้นหาผ่านการเพิ่มประสิทธิภาพกลไกค้นหา (SEO) รวมถึงเพิ่มความพึงพอใจของลูกค้าโดยอนุญาตให้พวกเขาตัดสินใจอย่างชาญฉลาด
แบบจำลอง finetuned ในที่เก็บนี้เป็นรุ่น Blip-2 และโดยเฉพาะอย่างยิ่งตัวแปรของมันโดยใช้ Flan-T5-XL
แผนภาพต่อไปนี้แสดงภาพรวมของ Blip-2:

การแก้ปัญหาสามารถแบ่งออกเป็นสองส่วนที่ทำเครื่องหมายสีเขียวและสีน้ำเงินในความสำเร็จด้านล่าง: a) การปรับแต่งสีเขียวและ b) การอนุมานเป็นสีน้ำเงิน

ดูข้อมูลเพิ่มเติม
ห้องสมุดนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT-0 ดูไฟล์ใบอนุญาต