ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์ทีม Deepseek ได้เปิดตัวระบบการอนุมาน DeepSeek-V3/R1 ใหม่ ระบบนี้มีวัตถุประสงค์เพื่อผลักดันการพัฒนาที่มีประสิทธิภาพของปัญญาประดิษฐ์ทั่วไป (AGI) ผ่านปริมาณงานที่สูงขึ้นและเวลาแฝงที่ต่ำกว่า เพื่อให้บรรลุเป้าหมายนี้ Deepseek ได้ใช้เทคโนโลยีผู้เชี่ยวชาญด้านการขนาน (EP) ช่วยปรับปรุงประสิทธิภาพการคำนวณ GPU อย่างมีนัยสำคัญและปรับขนาดการประมวลผลแบบแบทช์ในขณะที่ลดเวลาแฝง
แกนกลางของ Deepseek-V3/R1 นั้นสูงมากโดยมีผู้เชี่ยวชาญเพียง 8 คนจาก 256 คนเท่านั้นที่เปิดใช้งานในแต่ละชั้นของแบบจำลองดังนั้นขนาดแบทช์ที่มีขนาดใหญ่มากจึงจำเป็นต้องทำให้แน่ใจว่าผู้เชี่ยวชาญแต่ละคนมีกำลังการประมวลผลเพียงพอ สถาปัตยกรรมของระบบนี้ใช้วิธีการแยกส่วน prefill-decode และใช้กลยุทธ์การทำให้เป็นคู่ขนานในระดับที่แตกต่างกันในระหว่างขั้นตอนการเติมและขั้นตอนการถอดรหัส
ในระหว่างขั้นตอนการเติมก่อนระบบจะซ่อนค่าใช้จ่ายในการสื่อสารผ่านกลยุทธ์การทับซ้อนสองชุดซึ่งหมายความว่าเมื่อประมวลผลคำขอหนึ่งชุดค่าใช้จ่ายในการสื่อสารของแบทช์อื่นสามารถสวมหน้ากากโดยกระบวนการคำนวณซึ่งจะเป็นการปรับปรุงปริมาณงานโดยรวม ในขั้นตอนการถอดรหัสในการตอบสนองต่อความไม่สมดุลของเวลาในขั้นตอนการดำเนินการที่แตกต่างกัน Deepseek ใช้วิธีการไปป์ไลน์ห้าระดับเพื่อให้ได้การสื่อสารที่ไร้รอยต่อและการคำนวณที่ทับซ้อนกัน
เพื่อรับมือกับความไม่เท่าเทียมกันในการโหลดที่เกิดจากการขนานขนาดใหญ่ทีม Deepseek ได้ตั้งค่าโหลดบัลแลนเซอร์หลายตัว โหลดบาลานซ์เหล่านี้มุ่งมั่นที่จะสร้างความสมดุลระหว่างการคำนวณและการสื่อสารใน GPU ทั้งหมดโดยหลีกเลี่ยง GPU เดียวที่กลายเป็นคอขวดประสิทธิภาพเนื่องจากการดำเนินงานที่โอเวอร์โหลดและสร้างความมั่นใจในการใช้ทรัพยากรอย่างมีประสิทธิภาพ
ในแง่ของประสิทธิภาพการบริการบริการการอนุมาน DeepSeek-V3/R1 ทำงานบน H800GPU โดยใช้รูปแบบการคูณเมทริกซ์และรูปแบบการส่งที่สอดคล้องกับกระบวนการฝึกอบรม ตามสถิติล่าสุดระบบได้ประมวลผลโทเค็นอินพุต 608 พันล้านใน 24 ชั่วโมงที่ผ่านมาโดยมีอัตราการเข้าพักโหนดสูงสุด 278 และอัตราการเข้าพักเฉลี่ยต่อวันที่ 226.75 และประสิทธิภาพการบริการโดยรวมดี
ผ่านการออกแบบสถาปัตยกรรมที่มีประสิทธิภาพและการจัดการโหลดอัจฉริยะระบบการอนุมาน DeepSeek-V3/R1 ไม่เพียง แต่ปรับปรุงประสิทธิภาพการอนุมานของแบบจำลองปัญญาประดิษฐ์ แต่ยังให้การสนับสนุนโครงสร้างพื้นฐานที่แข็งแกร่งสำหรับการวิจัยและการประยุกต์ใช้ AGI ในอนาคต
โครงการ: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
ประเด็นสำคัญ:
ระบบการอนุมาน DeepSeek-V3/R1 จะได้รับปริมาณงานที่สูงขึ้นและเวลาแฝงที่ต่ำกว่าผ่านเทคโนโลยีคู่ขนานข้ามโหนด
กลยุทธ์การทับซ้อนแบบสองชุดและท่อส่งห้าระดับถูกนำมาใช้เพื่อปรับปรุงประสิทธิภาพการคำนวณและเพิ่มประสิทธิภาพกระบวนการสื่อสาร
ตั้งค่าโหลดบาลานซ์ที่หลากหลายเพื่อให้แน่ใจว่าการใช้ทรัพยากรอย่างมีประสิทธิภาพระหว่าง GPU และหลีกเลี่ยงปัญหาคอขวดประสิทธิภาพ