มหาวิทยาลัยหนานจิงและสถาบันวิจัย Megvii ร่วมมือกันพัฒนากระบวนทัศน์แบบจำลองภาพขนาดใหญ่แบบไม่มีผู้ดูแลที่เรียกว่า SeVa ซึ่งช่วยแก้ปัญหาการจัดตำแหน่งความชอบของแบบจำลองภาษาภาพได้อย่างมีประสิทธิภาพ เทคโนโลยีที่ก้าวล้ำนี้ไม่จำเป็นต้องมีส่วนร่วมด้วยตนเองหรือ GPT-4 ซึ่งช่วยลดต้นทุนการจัดตำแหน่งได้อย่างมากโดยการสร้างข้อมูลการตั้งค่าโดยอัตโนมัติ ปรับปรุงความสามารถในการปฏิบัติตามคำสั่งของโมเดล ลดอาการประสาทหลอน และได้ผลลัพธ์ที่น่าทึ่งในการทดสอบเกณฑ์มาตรฐานหลายรายการ หัวใจสำคัญของ SeVa คือการใช้เทคโนโลยีการเพิ่มรูปภาพเพื่อสร้างตัวอย่างเชิงบวกและเชิงลบ และใช้สิ่งนี้เพื่อฝึกแบบจำลอง เพื่อให้บรรลุการจัดตำแหน่งตามความชอบของมนุษย์ในท้ายที่สุด
แกนหลักของเทคโนโลยีนี้คือการสร้างไปป์ไลน์ของข้อมูลการตั้งค่าโดยอัตโนมัติ โดยการเปรียบเทียบเอาต์พุตของโมเดลก่อนและหลังการจัดตำแหน่งตามความชอบ จะเห็นการเปลี่ยนแปลงได้อย่างชัดเจน นักวิจัยพบว่าแม้แต่การเสริมภาพเล็กๆ น้อยๆ ก็สามารถให้คำตอบที่แตกต่างกันสำหรับคำถามเดียวกันของ VLM ได้ ดังนั้น พวกเขาจึงใช้คำตอบรูปภาพต้นฉบับเป็นตัวอย่างเชิงบวก และคำตอบรูปภาพเสริมเป็นตัวอย่างเชิงลบสำหรับการฝึกอบรม

ผลการทดลองของ SeVa นั้นน่าประทับใจ การใช้ข้อมูลที่ไม่มีผู้ดูแลที่สร้างขึ้นเพียง 8k เท่านั้นได้ปรับปรุงความสามารถในการติดตามคำสั่งของ VLM อย่างมีนัยสำคัญ ลดภาพหลอน และบรรลุการปรับปรุงที่สำคัญในมัลติโมดัลและเกณฑ์มาตรฐานอื่นๆ ที่สำคัญกว่านั้นคือ วิธีการนี้เรียบง่าย ต้นทุนต่ำ และไม่ต้องใช้คำอธิบายประกอบโดยมนุษย์หรือ GPT-4
ผลการทดสอบจากการวัดประสิทธิภาพหลายรายการแสดงให้เห็นว่า SeVa มีข้อได้เปรียบที่สำคัญในการปรับปรุงการจัดตำแหน่งความชอบของมนุษย์ของแบบจำลองภาพ โดยเฉพาะอย่างยิ่งบนม้านั่ง MMVet และ LLaVA ที่ประเมินโดย GPT-4 ประสิทธิภาพของ SeVa นั้นโดดเด่นเป็นพิเศษ นอกจากนี้ SeVa ยังสามารถสร้างคำตอบที่ยาวและมีรายละเอียดมากขึ้น โดยมีความสม่ำเสมอในแต่ละคำตอบที่สูงกว่า และทนทานต่อการเปลี่ยนแปลงอุณหภูมิที่ต่างกันได้ดีกว่า
งานวิจัยนี้ไม่เพียงแต่ให้แนวทางแก้ไขปัญหาการจัดตำแหน่งของแบบจำลองภาพขนาดใหญ่เท่านั้น แต่ยังเปิดโอกาสใหม่ ๆ ในการพัฒนาด้าน AI อีกด้วย ด้วยโอเพ่นซอร์สของ SeVa เราคาดการณ์ได้ว่านักวิจัยและนักพัฒนาจำนวนมากขึ้นจะใช้กระบวนทัศน์นี้เพื่อส่งเสริมการพัฒนาเทคโนโลยี AI ต่อไปในอนาคต ในยุคนี้ที่เต็มไปด้วยความเป็นไปได้ที่ไม่มีที่สิ้นสุด ให้เราตั้งตารอที่จะพบกับความประหลาดใจอีกมากมายที่มาพร้อมกับเทคโนโลยี AI
ที่อยู่โครงการ: https://github.com/Kevinz-code/SeVa
โอเพ่นซอร์สของ SeVa จะส่งเสริมการพัฒนาเทคโนโลยีโมเดลภาพขนาดใหญ่ ช่วยให้นักวิจัยและนักพัฒนามีเครื่องมือและวิธีการใหม่ๆ และปรับปรุงประสิทธิภาพและการประยุกต์ใช้ Visual AI ต่อไป ความสำเร็จของการวิจัยนี้แสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของการเรียนรู้แบบไม่มีผู้ดูแลในการแก้ปัญหาการจัดตำแหน่ง AI และชี้ให้เห็นทิศทางใหม่สำหรับการพัฒนาเทคโนโลยี AI ในอนาคต