วันนี้ Deepseek ซึ่งเป็น บริษัท ชั้นนำในสาขาปัญญาประดิษฐ์ในประเทศจีนประกาศอย่างเป็นทางการในวันที่สี่ของแผนโอเพ่นซอร์ส - กลยุทธ์การขนานที่ดีที่สุด เทคโนโลยีหลักที่ปล่อยออกมาในเวลานี้รวมถึงอัลกอริทึมคู่ขนานสองทาง DualPipe, EPLB แบบขนานกับผู้เชี่ยวชาญ EPLB และการเพิ่มประสิทธิภาพอย่างลึกซึ้งของกลไกการทับซ้อนการสื่อสารการคำนวณ การอัพเกรดเทคโนโลยีเหล่านี้มีเป้าหมายโดยตรงกับประเด็นสำคัญในการฝึกอบรมแบบจำลองภาษาขนาดใหญ่ซึ่งเป็นโซลูชั่นใหม่สำหรับการทำงานที่มีประสิทธิภาพของกลุ่มระดับ Super Wanka

DualPipe เป็นหนึ่งในแกนกลางของการอัพเกรดเทคโนโลยีนี้ออกแบบมาโดยเฉพาะสำหรับสถาปัตยกรรม V3/R1 ผ่านไปป์ไลน์การไหลของข้อมูลแบบสองทางที่เป็นนวัตกรรม DualPipe ได้รับการทับซ้อนกันสูงระหว่างการคำนวณและการสื่อสาร เมื่อเปรียบเทียบกับท่อทางเดียวแบบดั้งเดิมเทคโนโลยีนี้ปรับปรุงปริมาณงานคอมพิวเตอร์อย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งเหมาะสำหรับการฝึกอบรมแบบจำลองที่มีระดับพารามิเตอร์ 100 พันล้านถึง 100 พันล้านพารามิเตอร์ ตามฐานรหัส GitHub DualPipe ดำเนินการคำนวณไปข้างหน้าในขั้นตอนการ backpropagation ผ่านกลไกการกำหนดเวลาอัจฉริยะซึ่งเพิ่มการใช้ฮาร์ดแวร์ประมาณ 30%
เทคโนโลยี EPLB มีจุดมุ่งหมายที่ปัญหา "ผู้เชี่ยวชาญที่ร้อนแรง" ในการฝึกอบรมแบบจำลอง Hybrid Expert (MOE) และเป็นครั้งแรกที่ตระหนักถึงการปรับสมดุลการโหลดแบบไดนามิกของผู้เชี่ยวชาญแบบขนาน วิธีการดั้งเดิมมักจะนำไปสู่การใช้บัตรการคำนวณมากเกินไปเนื่องจากการจัดสรรงานผู้เชี่ยวชาญไม่สม่ำเสมอ ผ่านการตรวจสอบแบบเรียลไทม์และการจัดสรรแบบปรับตัว EPLB จะเพิ่มอัตราการใช้งานโดยรวมของคลัสเตอร์ระดับ Wanka เป็นมากกว่า 92%โดยหลีกเลี่ยงทรัพยากรที่ไม่ได้ใช้งานได้อย่างมีประสิทธิภาพ
นอกจากนี้ Deepseek ยังได้สร้างแบบจำลองประสิทธิภาพเชิงพื้นที่ของการขนาน 3 มิติ (Data/Pipeline/Tensor Parallelism) เป็นครั้งแรกตามเครื่องมือวิเคราะห์การสื่อสารที่ทับซ้อนกันของสถาปัตยกรรม V3/R1 ผ่านชุดข้อมูลการวิเคราะห์โอเพ่นซอร์สนักพัฒนาสามารถค้นหาโหนดที่ขัดแย้งกันระหว่างการคำนวณและการสื่อสารได้อย่างแม่นยำซึ่งเป็นเกณฑ์มาตรฐานสำหรับการฝึกอบรมแบบจำลอง Hyperscale จากการทดสอบการเพิ่มประสิทธิภาพนี้จะช่วยลดเวลาการฝึกอบรมแบบครบวงจรประมาณ 15%
การเปิดตัวเทคโนโลยีนี้ได้รับความสนใจอย่างมากในอุตสาหกรรม ผู้เชี่ยวชาญชี้ให้เห็นว่านวัตกรรมรวมของ DualPipe และ EPLB ตอบสนองโดยตรงต่อความท้าทายที่สำคัญสองประการของการฝึกอบรมขนาดใหญ่ในปัจจุบัน: ประการแรกด้วยการเติบโตแบบทวีคูณของมาตราส่วนแบบจำลองคอขวดที่ขยายได้ของกลยุทธ์คู่ขนานแบบดั้งเดิม ประการที่สองความนิยมของแบบจำลองผู้เชี่ยวชาญไฮบริดทำให้การโหลดแบบไดนามิกเป็นความต้องการขั้นพื้นฐาน ผู้อำนวยการด้านเทคนิคของผู้ผลิตคลาวด์คอมพิวติ้งให้ความเห็นว่า: "เครื่องมือเหล่านี้จะลดเกณฑ์ฮาร์ดแวร์อย่างมีนัยสำคัญสำหรับการฝึกอบรมแบบจำลองหลายร้อยพันล้านดอลลาร์และคาดว่าจะลดค่าใช้จ่ายในการฝึกอบรมลง 20%-30%
CTO ของ Deepseek เน้นในเอกสารทางเทคนิคว่ากลยุทธ์โอเพ่นซอร์สได้รับการตรวจสอบในการฝึกอบรมภายในของโมเดลพารามิเตอร์ 100 พันล้านหลายรุ่นและจะทำซ้ำและเพิ่มประสิทธิภาพในอนาคต ในปัจจุบันเทคโนโลยีทั้งสามนี้เป็นโอเพ่นซอร์สบน GitHub สนับสนุนนักพัฒนาซอฟต์แวร์เพื่อปรับแต่งและนำไปใช้กับสภาพแวดล้อมฮาร์ดแวร์ที่แตกต่างกัน
ในขณะที่การแข่งขัน AI ทั่วโลกเข้าสู่ขั้นตอน "การปรับขนาดชัยชนะ" Deepseek ได้เปิดแหล่งที่มาของเทคโนโลยีที่สำคัญเป็นเวลาสี่วันติดต่อกันไม่เพียง แต่แสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคของ บริษัท AI จีน แต่ยังให้โครงสร้างพื้นฐานที่นำมาใช้ใหม่ได้ นวัตกรรมทางเทคโนโลยีนี้ขับเคลื่อนโดย "การทำงานร่วมกันแบบเปิด" อาจเปลี่ยนรูปแบบระบบนิเวศอุตสาหกรรมของการฝึกอบรมแบบจำลองขนาดใหญ่