ในด้านปัญญาประดิษฐ์ทีมงาน Deepseek เพิ่งเปิดตัวผลการวิจัยที่พัฒนาขึ้นโดยเปิดตัวกลไกความสนใจที่กระจัดกระจายนวัตกรรมที่เรียกว่า NSA (ความสนใจแบบกระจัดกระจายพื้นเมือง) เป้าหมายหลักของเทคโนโลยีนี้คือการปฏิวัติการพัฒนาและการประยุกต์ใช้โมเดล AI โดยการเพิ่มประสิทธิภาพประสิทธิภาพของฮาร์ดแวร์ที่ทันสมัยและปรับปรุงความเร็วของการฝึกอบรมบริบทและการอนุมานที่ยาวนาน
การเปิดตัวเทคโนโลยี NSA เป็นการปรับปรุงที่สำคัญในประสิทธิภาพการฝึกอบรมของโมเดลปัญญาประดิษฐ์ ด้วยการเพิ่มประสิทธิภาพอย่างลึกซึ้งของฮาร์ดแวร์การคำนวณที่ทันสมัย NSA ไม่เพียง แต่ช่วยเพิ่มความเร็วในการอนุมานได้อย่างมาก แต่ยังช่วยลดค่าใช้จ่ายของการฝึกอบรมก่อน ที่สำคัญกว่านั้นในขณะที่การปรับปรุงประสิทธิภาพ NSA ยังคงรักษาประสิทธิภาพของโมเดลในระดับสูงเพื่อให้มั่นใจถึงประสิทธิภาพที่โดดเด่นในงานที่หลากหลาย
ทีม Deepseek ใช้กลยุทธ์กระจัดกระจายแบบเลเยอร์ในการศึกษาแบ่งกลไกความสนใจออกเป็นสามสาขาที่สำคัญ: การบีบอัดการเลือกและหน้าต่างเลื่อน การออกแบบนี้ช่วยให้โมเดลสามารถจับทั้งบริบททั่วโลกและรายละเอียดท้องถิ่นได้ปรับปรุงพลังการประมวลผลของโมเดลสำหรับข้อความที่ยาวนาน นอกจากนี้การเพิ่มประสิทธิภาพของ NSA ในการเข้าถึงหน่วยความจำและการจัดตารางการคำนวณได้ลดความล่าช้าในการคำนวณและการใช้ทรัพยากรของการฝึกอบรมบริบทที่ยาวนานอย่างมาก
NSA แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในชุดเกณฑ์มาตรฐานทั่วไป โดยเฉพาะอย่างยิ่งในงานบริบทที่ยาวนานและการใช้เหตุผลตามคำสั่งประสิทธิภาพของ NSA นั้นเปรียบได้กับแบบจำลองความสนใจอย่างเต็มที่และในบางกรณีก็ดีขึ้น การเปิดตัวเทคโนโลยีนี้ไม่เพียง แต่เป็นการก้าวกระโดดอีกครั้งในการฝึกอบรม AI และเทคโนโลยีการให้เหตุผล แต่ยังฉีดแรงผลักดันใหม่เข้าสู่การพัฒนาในอนาคตของปัญญาประดิษฐ์
กระดาษ NSA (https://arxiv.org/pdf/2502.11089v1)
การแนะนำเทคโนโลยี NSA ช่วยเพิ่มความเร็วในการฝึกอบรมบริบทและการใช้เหตุผลที่ยาวนานและลดค่าใช้จ่ายก่อนการฝึกอบรม กลยุทธ์เบาบางชั้นถูกนำมาใช้เพื่อแบ่งกลไกความสนใจออกเป็นการบีบอัดการเลือกและหน้าต่างเลื่อนซึ่งช่วยเพิ่มความสามารถในการประมวลผลของข้อความที่ยาว NSA ทำงานได้ดีในหลายเกณฑ์มาตรฐานในบางกรณีมีมากกว่าแบบจำลองความสนใจแบบดั้งเดิม