ในช่วงไม่กี่ปีที่ผ่านมาโมเดลภาษาขนาดใหญ่ (LLMS) ได้ก้าวหน้าไปในด้านปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งในการหลอมรวมหลายรูปแบบ ทีมงานร่วมจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยี Huazhong บิวต์และมหาวิทยาลัยฮ่องกงเพิ่งเสนอกรอบการสร้างหลายรูปแบบที่เป็นนวัตกรรม - ของเหลวโดยมีวัตถุประสงค์เพื่อแก้ข้อ จำกัด ของแบบจำลองหลายรูปแบบกระแสหลักในการประมวลผลภาพ การเกิดขึ้นของเทคโนโลยีนี้นับเป็นการพัฒนาต่อไปของปัญญาประดิษฐ์ในสาขามัลติโมดอล
การจำลองแบบหลายรูปแบบแบบดั้งเดิมมักจะพึ่งพาโมดูลการมองเห็นภายนอกที่ซับซ้อนซึ่งไม่เพียง แต่เพิ่มความซับซ้อนของระบบ แต่ยังจำกัดความสามารถในการปรับขนาดและความยืดหยุ่น นวัตกรรมของ Liquid คือการใช้ VQGAN เป็นคำศัพท์ภาพและละทิ้งการพึ่งพาส่วนประกอบภาพภายนอก ด้วยการเข้ารหัสภาพเป็นโทเค็นภาพที่ไม่ต่อเนื่องของเหลวช่วยให้โมเดลสามารถแบ่งปันรายการคำได้โดยตรงกับโทเค็นข้อความจึงบรรลุความเข้าใจด้านภาพ "ดั้งเดิม" และความสามารถในการสร้าง การออกแบบนี้ทำให้โครงสร้างโมเดลง่ายขึ้นอย่างมากในขณะที่ปรับปรุงความยืดหยุ่น
การศึกษาพบว่าของเหลวไม่เพียง แต่ลดค่าใช้จ่ายในการฝึกอบรมอย่างมีนัยสำคัญ แต่ยังเผยให้เห็นกฎสเกลของความสามารถหลายรูปแบบและ LLM ทีมวิจัยทำการทดลองเกี่ยวกับ LLMS ที่มีขนาดต่างกัน (จาก 0.5B ถึง 32B) ผลการวิจัยพบว่าเมื่อขนาดของแบบจำลองขยายตัวประสิทธิภาพและคุณภาพการสร้างงานการสร้างภาพตามรูปแบบการปรับขนาดที่สอดคล้องกับงานภาษา สิ่งที่น่าตื่นเต้นยิ่งกว่านั้นคือมีความสัมพันธ์การอำนวยความสะดวกแบบสองทางระหว่างความเข้าใจด้านภาพและงานที่เกิดขึ้นนั่นคือทั้งสองสามารถบรรลุการเพิ่มประสิทธิภาพร่วมกันผ่านพื้นที่การเป็นตัวแทนที่ใช้ร่วมกัน การค้นพบนี้ให้พื้นฐานทางทฤษฎีที่สำคัญสำหรับการออกแบบแบบจำลองหลายรูปแบบในอนาคต
การออกแบบของ Liquid เป็นสิ่งสำคัญอย่างยิ่งการรักษาภาพและข้อความอย่างเท่าเทียมกันโดยใช้กรอบการประมวลผลแบบครบวงจร ในระหว่างกระบวนการก่อสร้างทีมวิจัยใช้ข้อมูลข้อความ 30m และข้อมูลข้อความรูปภาพ 30m เพื่อวางรากฐานสำหรับการฝึกอบรมแบบหลายรูปแบบของแบบจำลอง ผลการทดลองขั้นสุดท้ายแสดงให้เห็นว่าของเหลวมีประสิทธิภาพที่ยอดเยี่ยมในความเข้าใจหลายรูปแบบการสร้างภาพและงานข้อความธรรมดาและความสอดคล้องทางความหมายระหว่างภาพที่สร้างขึ้นและข้อความนั้นสูงกว่ารุ่นอัตโนมัติอื่น ๆ อย่างมีนัยสำคัญ ผลลัพธ์นี้แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมของของเหลวในการใช้งานจริง
ข้อเสนอของ Liquid ให้แนวคิดใหม่สำหรับการออกแบบสถาปัตยกรรมของหน่วยสืบราชการลับหลายรูปแบบทั่วไปซึ่งบ่งชี้ว่าปัญญาประดิษฐ์อาจนำไปสู่วิวัฒนาการที่มีประสิทธิภาพและยืดหยุ่นมากขึ้นในอนาคตของการหลอมรวมหลายรูปแบบ ความสำเร็จของเทคโนโลยีนี้ไม่เพียง แต่ส่งเสริมการวิจัยในสาขาหลายรูปแบบ แต่ยังเปิดโอกาสใหม่สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในสถานการณ์ที่ใช้งานได้จริงมากขึ้น
ลิงค์กระดาษ: https://arxiv.org/pdf/2412.04332