ในสาขาปัญญาประดิษฐ์การเปิดตัว Deepseek-R1 นับเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี AI นวัตกรรมนี้ไม่เพียง แต่แสดงให้เห็นถึงการพัฒนาอย่างรวดเร็วของอุตสาหกรรม AI แต่ยังเปิดโอกาสใหม่สำหรับแอปพลิเคชัน AI ในอนาคตผ่านสถาปัตยกรรมที่ไม่เหมือนใครหลายหัว (MLA) ด้วยเทคโนโลยีการบีบอัดระดับต่ำสถาปัตยกรรม MLA จะช่วยลดค่าใช้จ่ายในการฝึกอบรมและการอนุมานได้อย่างมีนัยสำคัญ ผลลัพธ์นี้เสร็จสิ้นร่วมกันโดย Ji Tao เพื่อนหลังปริญญาเอกในห้องปฏิบัติการ NLP ของมหาวิทยาลัย Fudan และทีมงานของเขา เป้าหมายของพวกเขาคือการเปิดใช้งานโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้าโดยพลการเพื่อโยกย้ายไปยังสถาปัตยกรรม MLA ผ่านกรอบ MHA2MLA อย่างรวดเร็วโดยไม่จำเป็นต้องฝึกจากศูนย์
ปัจจุบันโมเดลขนาดใหญ่ที่สำคัญมักจะขึ้นอยู่กับกลไกความสนใจหลายหัวมาตรฐาน (MHA) และตัวแปรของพวกเขาซึ่งมีข้อเสียอย่างมีนัยสำคัญในค่าใช้จ่ายในการอนุมานเมื่อเทียบกับ MLA เพื่อแก้ปัญหานี้ทีมวิจัยได้เสนอกรอบ MHA2MLA ซึ่งประสบความสำเร็จในการโยกย้ายสถาปัตยกรรม MHA/GQA ไปยัง MLA ผ่านขั้นตอนสำคัญสองขั้นตอน-ส่วนหนึ่งของการเก็บรักษาเชือกและข้อต่อคีย์ นวัตกรรมนี้ไม่เพียง แต่ปรับปรุงประสิทธิภาพของโมเดลเท่านั้น แต่ยังให้ความเป็นไปได้มากขึ้นสำหรับแอพพลิเคชั่น AI ในอนาคต

ในระหว่างการดำเนินการของ MHA2MLA ทีมได้แยกการเข้ารหัสตำแหน่งเป็นครั้งแรกออกจากมิติขนาดใหญ่ผ่านกลยุทธ์การปรับแต่งเชือกบางอย่างเพื่อรักษามิติจำนวนเล็กน้อยที่เกี่ยวข้องกับสถานที่ซึ่งจะแก้ไขความขัดแย้งระหว่าง MLA และเชือก ถัดไปการประมาณระดับต่ำของเวกเตอร์คีย์-ค่าดำเนินการโดยเทคนิคการสลายตัวของค่าเอกพจน์ (SVD) เพื่อเพิ่มความรู้ก่อนการฝึกอบรมในขณะที่ลดพื้นที่แคชอย่างมีนัยสำคัญ ผลการทดลองแสดงให้เห็นว่าการปรับแต่งเฉพาะจะต้องใช้ข้อมูล 0.3% ถึง 0.6% ของข้อมูลที่ได้รับการฝึกฝนเพื่อคืนค่าการสูญเสียประสิทธิภาพโดยทั่วไปในระหว่างการโยกย้าย ความสำเร็จนี้ไม่เพียง แต่แสดงให้เห็นถึงประสิทธิภาพของกรอบ MHA2MLA เท่านั้น แต่ยังให้คำแนะนำใหม่สำหรับการวิจัย AI ในอนาคต
หลังจากรวมกับเทคนิคการอนุมานที่มีประสิทธิภาพอื่น ๆ เช่นปริมาณแคช 4 บิต KV แคช KV ของรุ่น LLAMA2-7B ลดลง 92.19% ในขณะที่การสูญเสียประสิทธิภาพเพียง 0.5% ผลลัพธ์นี้แสดงให้เห็นถึงความเข้ากันได้ที่เหนือกว่าของกรอบ MHA2MLA ในเทคโนโลยีการบีบอัดในขณะที่ยังคงความสามารถในการอนุมานของแบบจำลองและความสามารถในการประมวลผลบริบทที่ยาวนานซึ่งเป็นเส้นทางที่เป็นไปได้ใหม่สำหรับการปรับใช้แบบจำลองภาษาขนาดใหญ่ที่ประหยัดทรัพยากร นวัตกรรมนี้ไม่เพียง แต่ปรับปรุงประสิทธิภาพของโมเดลเท่านั้น แต่ยังให้ความเป็นไปได้มากขึ้นสำหรับแอพพลิเคชั่น AI ในอนาคต
อย่างไรก็ตามทีมวิจัยยังชี้ให้เห็นว่าการทดลองถูก จำกัด ด้วยเงื่อนไขฮาร์ดแวร์และยังไม่ได้ครอบคลุมโมเดลเช่น LLAMA3 ที่ต้องใช้การปรับแต่งบริบทยาว 128K การวิจัยในอนาคตจะมุ่งเน้นไปที่การขยายไปสู่สถาปัตยกรรมแบบจำลองมากขึ้นและการรวมกลยุทธ์การปรับจูนพารามิเตอร์ที่มีประสิทธิภาพเพื่อลดขนาดของการอัปเดตพารามิเตอร์ในระหว่างกระบวนการโยกย้าย การวิจัยในทิศทางนี้จะให้ความเป็นไปได้มากขึ้นสำหรับการใช้งาน AI ในอนาคตและส่งเสริมการพัฒนาเทคโนโลยี AI เพิ่มเติม