ยังคงคลั่งไคล้เกี่ยวกับ "ความเร็ว" ของการประมวลผลข้อความยาวในรุ่นใหญ่หรือไม่? ไม่ต้องกังวล! มหาวิทยาลัย Tsinghua ได้เปิดตัวเทคโนโลยี "King Bomb" - APB Sequence Framework การใช้เหตุผลแบบขนานและติดตั้งเครื่องยนต์ "เทอร์โบชาร์จ" โดยตรงกับรุ่นใหญ่! การทดสอบจริงแสดงให้เห็นว่าเมื่อประมวลผลข้อความยาวเป็นพิเศษเทคโนโลยีสีดำนี้เร็วกว่าความสนใจของแฟลช 10 เท่า! ถูกต้องคุณได้ยินมาถูกต้อง 10 ครั้ง!

คุณควรรู้ว่าด้วยความนิยมของโมเดลขนาดใหญ่เช่น CHATGPT ความสามารถในการอ่าน "การอ่าน" ของ AI ก็เพิ่มขึ้นเช่นกันและไม่มีปัญหาในการประมวลผลบทความยาว ๆ ที่มีมูลค่านับหมื่นคำ อย่างไรก็ตามในการเผชิญกับข้อมูลขนาดใหญ่ "สมอง" ของโมเดลขนาดใหญ่แบบดั้งเดิมนั้นติดอยู่เล็กน้อย - แม้ว่าสถาปัตยกรรมของหม้อแปลงจะแข็งแกร่ง แต่กลไกความสนใจหลักของมันก็เหมือน "Super Scanner" ยิ่งข้อความยาวขึ้นการขยายตัวแบบเอ็กซ์โปเนนเชียลของช่วงการสแกนและความเร็วที่ช้าลง
เพื่อแก้ปัญหา "คอขวด" นี้นักวิทยาศาสตร์จากมหาวิทยาลัย Tsinghua ได้ร่วมมือกับสถาบันวิจัยและยักษ์ใหญ่ด้านเทคโนโลยีหลายแห่งเพื่อค้นหาแนวทางที่แตกต่างและเปิดตัวกรอบ APB ความลึกลับหลักของเฟรมเวิร์กนี้อยู่ในการผสมผสานที่ชาญฉลาดของ "ลำดับขนาน + ความสนใจแบบเบาบาง"

กล่าวง่ายๆคือเฟรมเวิร์ก APB เป็นเหมือนทีม "ความร่วมมือ" ที่มีประสิทธิภาพ มัน "dismembers" ข้อความยาวเป็นชิ้นเล็ก ๆ และจัดสรรให้กับ GPU หลาย "สมาชิกในทีม" เพื่อประมวลผลแบบขนาน สิ่งที่น่าทึ่งยิ่งกว่านั้นคือ APB ยังช่วยให้ "สมาชิกในทีม" แต่ละคนมีทักษะ "การบีบอัดแคช KV ท้องถิ่น" และ "การสื่อสารที่ง่ายขึ้น" ทำให้พวกเขาสามารถแบ่งปันข้อมูลที่สำคัญได้อย่างมีประสิทธิภาพในขณะที่จัดการงานที่เกี่ยวข้อง
สิ่งที่น่าแปลกใจยิ่งกว่านั้นคือกรอบ APB ไม่ได้ทำการค้าด้วยความเร็วในการปฏิบัติงาน ในทางตรงกันข้ามในการทดสอบข้อความยาว 128K เป็นพิเศษ APB ไม่เพียง แต่มีความเร็วพุ่งสูงขึ้น แต่ประสิทธิภาพของมันเกินความสนใจแฟลชแบบดั้งเดิม! แม้แต่ความสนใจของดาวซึ่ง Nvidia ได้รับการเลื่อนตำแหน่งอย่างรุนแรงก็ถูกทำให้ล้มลงโดย APB ด้วยความเร็วเพิ่มขึ้น 1.6 เท่าทำให้มันเป็น "เอซทุกรอบ"
แอปพลิเคชั่นที่ตรงที่สุดของเทคโนโลยีการพัฒนานี้คือการลดเวลาตอบสนองโทเค็นครั้งแรกของโมเดลขนาดใหญ่สำหรับการประมวลผลคำขอข้อความยาว ซึ่งหมายความว่าเมื่อเผชิญกับคำแนะนำที่ยาวนานของ "การแพร่กระจาย" ของผู้ใช้โดยเฟรมเวิร์ก APB ในอนาคตโมเดลขนาดใหญ่ที่ติดตั้งเฟรมเวิร์ก APB สามารถเข้าใจได้ทันทีตอบสนองในไม่กี่วินาที

ดังนั้นเฟรมเวิร์ก APB จะบรรลุเอฟเฟกต์ความเร็ว "ไม่ได้รับการกำหนด" ได้อย่างไร
ปรากฎว่าเฟรมเวิร์ก APB ตระหนักดีถึง "จุดปวด" ของการประมวลผลข้อความยาว - จำนวนการคำนวณ ปริมาณการคำนวณของกลไกความสนใจแบบดั้งเดิมนั้นเป็นสัดส่วนกับสี่เหลี่ยมจัตุรัสของความยาวข้อความและข้อความยาวคือ "หลุมดำ" ของการคำนวณ เพื่อที่จะฝ่าคอขวดนี้เฟรมเวิร์ก APB ได้เปิดตัว "Magic Moves" สองครั้ง:
การเคลื่อนไหวครั้งแรก: ปรับปรุงความเท่าเทียมและทำให้ "ไฟสูงสำหรับทุกคนที่จะรับไฟ"
เฟรมเวิร์ก APB ใช้ประโยชน์อย่างเต็มที่จากการคำนวณแบบกระจายเพื่อแจกจ่ายงานการคำนวณใน GPU หลายตัวเช่น "การทำงานร่วมกันแบบหลายผู้เล่น" ด้วยประสิทธิภาพตามธรรมชาติ โดยเฉพาะอย่างยิ่งในแง่ของลำดับความเท่าเทียมกันเฟรมเวิร์ก APB แสดงให้เห็นถึงความสามารถในการปรับขนาดที่แข็งแกร่งมากและไม่ จำกัด โดยโครงสร้างของแบบจำลองและสามารถรับมือกับข้อความได้อย่างง่ายดายไม่ว่าจะนานแค่ไหน
เคล็ดลับที่สอง: ลดการคำนวณที่ไม่ถูกต้องและปล่อยให้ "ใช้เหล็กกล้าดีบนใบมีด"
เฟรมเวิร์ก APB แนะนำกลไกความสนใจที่กระจัดกระจายซึ่งไม่ได้ "คว้าคิ้วและเคราทันที" แต่ "เลือก" เพื่อคำนวณความสนใจ มันเป็นเหมือนผู้เชี่ยวชาญที่มี "ดวงตาไฟ" ที่มุ่งเน้นเฉพาะข้อมูลสำคัญในข้อความและละเว้นส่วนที่ไม่เกี่ยวข้องดังนั้นจึงช่วยลดปริมาณการคำนวณได้อย่างมาก
อย่างไรก็ตามสองเทคนิคของ "ขนาน" และ "กระจัดกระจาย" ดูเหมือนง่าย แต่ในความเป็นจริงพวกเขา "ซ่อนความลึกลับ" จะบรรลุการคำนวณความสนใจที่กระจัดกระจายได้อย่างมีประสิทธิภาพภายใต้กรอบการทำงานแบบขนานลำดับ? นี่คือ "ฮาร์ดคอร์" จริงของกรอบ APB
คุณควรรู้ว่าในสภาพแวดล้อมแบบขนานลำดับ GPU แต่ละตัวมีเพียงส่วนหนึ่งของข้อมูลข้อความ หากคุณต้องการบรรลุ "การรับรู้ระดับโลก" มันก็เหมือนกับ "คนตาบอดที่สัมผัสกับช้าง" และความยากลำบากสามารถจินตนาการได้ วิธีการก่อนหน้านี้เช่น Star Attention และ APE ไม่ว่าจะเป็นการเสียสละประสิทธิภาพหรือถูก จำกัด ในสถานการณ์ที่ใช้บังคับซึ่งล้มเหลวในการแก้ปัญหานี้อย่างสมบูรณ์แบบ
เฟรมเวิร์ก APB หลีกเลี่ยง "หลุม" ของ "การสื่อสารขนาดใหญ่" อย่างชาญฉลาดและใช้วิธีการที่แตกต่างกันในการสร้างกลไกความสนใจที่กระจัดกระจายการสื่อสารต่ำสำหรับสถานการณ์คู่ขนานลำดับ องค์ประกอบหลักของกลไกนี้รวมถึง:
บล็อกจุดยึดขนาดเล็ก: จุดยึดบล็อกเป็นเหมือน "เนวิเกเตอร์" ที่เป็นแนวทางในกลไกความสนใจเพื่อมุ่งเน้นไปที่ข้อมูลสำคัญ เฟรมเวิร์ก APB ลดขนาดของจุดยึดบล็อกอย่างสร้างสรรค์ทำให้เบาลงและยืดหยุ่นมากขึ้นและลดค่าใช้จ่ายในการคำนวณ
บล็อกการส่งผ่านดั้งเดิม: การผ่านบล็อกเป็นองค์ประกอบ "วิญญาณ" ของเฟรมเวิร์ก APB ซึ่งแก้ปัญหาการพึ่งพาความหมายทางไกลได้อย่างชาญฉลาด โดย "การบีบอัดและบรรจุภัณฑ์" ข้อมูลสำคัญที่ประมวลผลโดย GPU ที่นำหน้าและส่งผ่านไปยัง GPU ที่ตามมาแต่ละ "สมาชิกในทีม" สามารถ "ดูสถานการณ์โดยรวม" และเข้าใจบริบท "บริบท" ของข้อความยาว
การบีบอัดบริบทที่รับรู้แบบสอบถาม: เฟรมเวิร์ก APB ยังแนะนำกลไก "Aware Aware" ซึ่งช่วยให้บริบทคอมเพรสเซอร์สามารถ "เข้าใจปัญหา" กรองและเก็บข้อมูลสำคัญที่เกี่ยวข้องกับการสืบค้นได้อย่างแม่นยำยิ่งขึ้นและปรับปรุงประสิทธิภาพและความแม่นยำเพิ่มเติม
ตาม "ทักษะที่ไม่เหมือนใคร" ข้างต้นเฟรมเวิร์ก APB ได้สร้างกระบวนการให้เหตุผลที่ราบรื่นและสมเหตุสมผล:
การแบ่งส่วนบริบท: แจกจ่ายข้อความยาวให้กับ GPU แต่ละตัวและ Splice Anchor Block ที่จุดเริ่มต้นถึง "ฝัง" คำถาม
การบีบอัดบริบท: ใช้ส่วนหัวการเก็บรักษาที่แนะนำโดย Locret เพื่อดำเนินการ "การบีบอัดอัจฉริยะ" ของแคช KV
การสื่อสารที่มีประสิทธิภาพ: ผ่านตัวดำเนินการ Allgather แคช KV ที่บีบอัดจะ "ส่งผ่าน" ไปยัง GPU ที่ตามมาเพื่อสร้างบล็อกที่ผ่าน
การคำนวณอย่างรวดเร็ว: ใช้เคอร์เนลความสนใจของแฟลชที่ทำขึ้นเป็นพิเศษและทำการคำนวณที่มีประสิทธิภาพด้วยหน้ากากที่ได้รับความสนใจ ผ่านบล็อก "เรสเซสต์" หลังจากการคำนวณเสร็จสมบูรณ์และไม่ได้มีส่วนร่วมในการคำนวณที่ตามมา
ผลการทดลองแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมของกรอบ APB ในการทดสอบเช่น LLAMA-3.1-8B-Instruct, QWEN-2.5-14B-Instruct, YI-34B-200K และเกณฑ์มาตรฐานหลายอย่างเช่น Infinitebench และไม้บรรทัด, APB Framework เหนือกว่าฝูงชน
โดยเฉพาะอย่างยิ่งคุ้มค่าที่จะกล่าวถึงว่าเมื่อความยาวของข้อความเพิ่มขึ้นความได้เปรียบความเร็วของเฟรมเวิร์ก APB จะชัดเจนขึ้นเรื่อย ๆ และมันก็ตระหนักถึงผลที่น่าอัศจรรย์ของ "การได้เร็วขึ้นและเร็วขึ้น" ความลึกลับที่อยู่เบื้องหลังนี้คือเฟรมเวิร์ก APB นั้นคำนวณได้น้อยกว่าวิธีอื่นมากและช่องว่างก็กว้างขึ้นเมื่อความยาวข้อความเพิ่มขึ้น
การวิเคราะห์การฉีกขาดก่อนการเติมเงินในเชิงลึกมากขึ้นแสดงให้เห็นว่าเทคโนโลยีการขนานของลำดับตัวเองสามารถลดเวลาในการคำนวณและ FFN ได้อย่างมีนัยสำคัญ (เครือข่ายประสาทไปข้างหน้า) กลไกความสนใจที่กระจัดกระจายของเฟรมเวิร์ก APB จะบีบอัดเวลาการคำนวณความสนใจให้มากขึ้น เมื่อเปรียบเทียบกับความสนใจของดาว APB Framework ใช้การผ่านบล็อกอย่างชาญฉลาดเพื่อผ่านการพึ่งพาความหมายทางไกลในระยะยาวลดขนาดของจุดยึดบล็อกอย่างมากลดค่าใช้จ่ายเพิ่มเติมของ FFN และบรรลุผลที่สมบูรณ์แบบของ
สิ่งที่น่าตื่นเต้นยิ่งกว่าคือเฟรมเวิร์ก APB แสดงให้เห็นถึงความเข้ากันได้ที่ยอดเยี่ยมสามารถปรับให้เข้ากับสภาพแวดล้อมและเครื่องชั่งแบบจำลองที่แตกต่างกันได้อย่างยืดหยุ่นและสามารถรักษาประสิทธิภาพสูงและมีประสิทธิภาพสูง "เสถียรเหมือนหิน" ภายใต้เงื่อนไข "ยาก" ที่หลากหลาย
อาจคาดการณ์ได้ว่าด้วยการถือกำเนิดของกรอบ APB "คอขวด" ของการใช้เหตุผลข้อความยาวขนาดใหญ่จะถูกทำลายอย่างสมบูรณ์และพื้นที่จินตนาการของแอปพลิเคชัน AI จะขยายออกไปอย่างไม่สิ้นสุด ในอนาคตไม่ว่าจะเป็นการบริการลูกค้าที่ชาญฉลาดการวิเคราะห์ทางการเงินการวิจัยทางวิทยาศาสตร์และการสำรวจและการสร้างเนื้อหาเราจะนำไปสู่ยุคใหม่ของ AI ที่ "เร็วขึ้นแข็งแกร่งขึ้นและฉลาดขึ้น"!
ที่อยู่โครงการ: https://github.com/thunlp/apb
ที่อยู่กระดาษ: https://arxiv.org/pdf/2502.12085