ในสาขาปัญญาประดิษฐ์ผลการวิจัยล่าสุดของทีมจางมูฮันที่ Peking University กรอบการปรับแต่ง (LIFT) ที่มีความยาว (LIFT) ได้นำความก้าวหน้าของการปฏิวัติมาสู่การประมวลผลข้อความที่ยาวนาน วิธีการที่เป็นนวัตกรรมนี้จะเปลี่ยนแนวคิดการประมวลผลข้อความยาวแบบดั้งเดิมอย่างสมบูรณ์โดยการฝึกอบรมข้อความอินพุตยาวเป็นพารามิเตอร์โมเดลช่วยให้โมเดลหน้าต่างบริบทสั้น ๆ สามารถรับความสามารถในการประมวลผลข้อความที่ยาวนาน

ปัจจุบันโมเดลขนาดใหญ่เผชิญกับความท้าทายที่สำคัญสองประการเมื่อประมวลผลข้อความยาว ๆ : ประการแรกความซับซ้อนของสี่เหลี่ยมจัตุรัสของกลไกความสนใจแบบดั้งเดิมนำไปสู่การคำนวณขนาดใหญ่และค่าใช้จ่ายหน่วยความจำเมื่อประมวลผลข้อความยาว ประการที่สองโมเดลนั้นยากที่จะเข้าใจการพึ่งพาระยะยาวที่กระจัดกระจายไปทั่วข้อความยาว โซลูชันที่มีอยู่เช่น RAG และการปรับบริบทที่ยาวนานมีข้อ จำกัด ของตนเอง ผ้าขี้ริ้วอาศัยการดึงที่ถูกต้องและมีแนวโน้มที่จะแนะนำเสียงรบกวนเพื่อทำให้เกิดภาพหลอน อย่างไรก็ตามการปรับบริบทที่ยาวนานมีความซับซ้อนในการอนุมานสูงและหน้าต่างบริบทยังคงมี จำกัด
เฟรมเวิร์กลิฟต์ประกอบด้วยองค์ประกอบสำคัญสามประการ: การฝึกอบรมอินพุตที่ยาวนานและมีประสิทธิภาพ, อะแดปเตอร์หน่วยความจำที่มีรั้วรอบขอบชิดซึ่งสมดุลความสามารถของโมเดลและการฝึกอบรมงานเสริม แยกข้อความยาวออกเป็นชิ้นส่วนที่ทับซ้อนกันผ่านการสร้างแบบจำลองภาษาที่แบ่งเป็นส่วน ๆ เพื่อหลีกเลี่ยงการเพิ่มขึ้นของความซับซ้อนในการใช้เหตุผลและการสูญเสียการพึ่งพาระยะยาวที่เกิดจากบริบทที่ยาวเกินไป ออกแบบสถาปัตยกรรมอะแดปเตอร์หน่วยความจำที่มีรั้วรอบขอบชิดโดยเฉพาะเพื่อปรับสมดุลความสามารถในการเรียนรู้ในบริบทของโมเดลดั้งเดิมและความเข้าใจหน่วยความจำของอินพุตที่ยาวนาน โดยการฝึกอบรมล่วงหน้า LLM จะสร้างงานถามและตอบโดยอัตโนมัติตามข้อความยาวชดเชยการสูญเสียความสามารถของโมเดลในการฝึกอบรมการแบ่งส่วน

การยกได้รับการปรับปรุงอย่างมีนัยสำคัญในการเปรียบเทียบบริบทที่ยาวหลายครั้ง ตัวอย่างเช่นในคำถามและคำตอบที่พึ่งพาอาศัยกันนาน Loogle อัตราความแม่นยำของ LLAMA38B เพิ่มขึ้นจาก 15.44% เป็น 29.97%; ในคำถามและคำตอบที่พึ่งพาอาศัยระยะสั้น LOOGLE อัตราความแม่นยำของ GEMMA29B เพิ่มขึ้นจาก 37.37% เป็น 50.33%; ในงานย่อยหลายรายการ Llama3 ได้รับการปรับปรุงอย่างมีนัยสำคัญใน 4 จาก 5 งานย่อยผ่านการยก การทดลองด้วยการระเหยแสดงให้เห็นว่าสถาปัตยกรรมหน่วยความจำที่มีรั้วรอบขอบชิดปรับปรุง GPT-4Score บนชุดข้อมูล Loogle ShortQa โดย 5.48% เมื่อเทียบกับรุ่นดั้งเดิมที่ปรับแต่งโดยใช้ Pissa
แม้ว่าลิฟท์จะได้รับผลลัพธ์ที่น่าทึ่ง แต่ก็ยังมีข้อ จำกัด บางประการ: ผลกระทบของ "การค้นหาเข็มในกองหญ้า" ที่ต้องใช้การสกัดข้อมูลที่ถูกต้องยังไม่เหมาะ แบบจำลองจำเป็นต้องเพิ่มประสิทธิภาพความสามารถในการสกัดความรู้พารามิเตอร์ที่ได้จากการยก การออกแบบงานเสริมนั้นขึ้นอยู่กับงานทดสอบดาวน์สตรีมอย่างมากและความเป็นสากลนั้นมี จำกัด วิธีการสร้างความสมดุลให้กับหน่วยความจำและความสามารถดั้งเดิมที่ดีขึ้นยังคงเป็นจุดสนใจของการวิจัย ทีมวิจัยสนับสนุนให้ชุมชนสามารถสำรวจศักยภาพของการยกระดับด้วยข้อมูลการฝึกอบรมที่กว้างขึ้นโมเดลที่สมบูรณ์ยิ่งขึ้นการออกแบบงานเสริมขั้นสูงและทรัพยากรคอมพิวเตอร์ที่แข็งแกร่งขึ้น

Lift ให้กระบวนทัศน์การประมวลผลข้อความยาวใหม่ที่เปลี่ยนความรู้เชิงบริบทให้เป็นความรู้ที่กำหนดค่าพารามิเตอร์วิธีการคิดคล้ายกับกระบวนการของหน่วยความจำระยะสั้นของมนุษย์ที่เปลี่ยนเป็นหน่วยความจำระยะยาว แม้ว่าจะยังคงมีระยะห่างจากความท้าทายบริบทที่ยาวนาน แต่ LIFT ได้เปิดทิศทางการวิจัยที่มีแนวโน้ม ที่อยู่กระดาษ: https://arxiv.org/abs/2502.14644