Tencent Cloud ได้เปิดตัว Xingmai Network 2.0 ซึ่งเป็นเครือข่ายเวอร์ชันอัปเกรดที่ออกแบบมาสำหรับการฝึกโมเดลขนาดใหญ่ โดยมีเป้าหมายเพื่อแก้ปัญหาประสิทธิภาพการสื่อสารต่ำในการฝึกโมเดลขนาดใหญ่ ในเครือข่าย Xingmai เวอร์ชันเก่า เวลาในการซิงโครไนซ์ผลการคำนวณมีสัดส่วนมากกว่า 50% ซึ่งส่งผลกระทบอย่างมากต่อประสิทธิภาพการฝึกอบรม เวอร์ชันใหม่ได้ปรับปรุงประสิทธิภาพและความน่าเชื่อถือของเครือข่ายอย่างมีนัยสำคัญผ่านการอัปเกรดทางเทคนิคหลายรายการ ซึ่งให้การสนับสนุนที่มีประสิทธิภาพมากขึ้นสำหรับการฝึกโมเดลขนาดใหญ่

1. รองรับเครือข่าย 100,000 การ์ดในคลัสเตอร์เดียว เพิ่มขนาดเป็นสองเท่า เพิ่มประสิทธิภาพการสื่อสารเครือข่าย 60% เพิ่มประสิทธิภาพการฝึกโมเดลขนาดใหญ่ 20% และลดตำแหน่งข้อผิดพลาดจากวันเหลือเพียงไม่กี่นาที
2. สวิตช์ โมดูลออปติคอล การ์ดเครือข่าย และอุปกรณ์เครือข่ายอื่นๆ ที่พัฒนาขึ้นเอง ได้รับการอัปเกรดเพื่อทำให้โครงสร้างพื้นฐานมีความน่าเชื่อถือมากขึ้น และรองรับคลัสเตอร์เดียวที่มีขนาดการ์ด GPU มากกว่า 100,000 ใบ
3. มีการใช้โปรโตคอลการสื่อสารใหม่ TiTa2.0 บนการ์ดเครือข่าย และอัลกอริธึมความแออัดได้รับการอัพเกรดเป็นอัลกอริธึมควบคุมความแออัดที่ใช้งานอยู่ ประสิทธิภาพการสื่อสารเพิ่มขึ้น 30% และประสิทธิภาพการฝึกอบรมโมเดลขนาดใหญ่เพิ่มขึ้น 10%
4. ไลบรารีการสื่อสารรวมประสิทธิภาพสูง TCCL2.0 ใช้การสื่อสารแบบขนานที่ต่างกันแบบ NVLINK+NET เพื่อให้เกิดการส่งข้อมูลแบบขนาน นอกจากนี้ ยังมีอัลกอริธึมการปรับตัวของผู้เชี่ยวชาญเครือข่ายปรับอัตโนมัติ ซึ่งปรับปรุงประสิทธิภาพการสื่อสารขึ้น 30% และประสิทธิภาพการฝึกโมเดลขนาดใหญ่ด้วย 10%.
5. แพลตฟอร์มจำลอง Lingjing ซึ่งเป็นเทคโนโลยีเอกสิทธิ์เฉพาะของ Tencent ที่เพิ่มเข้ามาใหม่ สามารถตรวจสอบเครือข่ายคลัสเตอร์ได้อย่างเต็มที่ ค้นหาปัญหาโหนด GPU ได้อย่างแม่นยำ และลดเวลาในการค้นหาข้อผิดพลาดในการฝึกอบรมระดับ 10,000-ka จากหลายวันเหลือเพียงนาที
ด้วยการอัปเกรดเหล่านี้ ประสิทธิภาพการสื่อสารของเครือข่าย Xingmai เพิ่มขึ้น 60% ประสิทธิภาพการฝึกโมเดลขนาดใหญ่เพิ่มขึ้น 20% และปรับปรุงความแม่นยำของตำแหน่งข้อผิดพลาดด้วย การปรับปรุงเหล่านี้จะช่วยปรับปรุงประสิทธิภาพและประสิทธิภาพของการฝึกโมเดลขนาดใหญ่ ช่วยให้ทรัพยากร GPU ที่มีราคาแพงสามารถนำไปใช้ประโยชน์ได้อย่างเต็มที่มากขึ้น
การอัพเกรด Xingmai Network 2.0 ได้นำมาซึ่งการปรับปรุงประสิทธิภาพที่สำคัญและเพิ่มความน่าเชื่อถือให้กับการฝึกอบรมโมเดลขนาดใหญ่ การปรับปรุงอุปกรณ์เครือข่าย โปรโตคอลการสื่อสาร และตำแหน่งข้อผิดพลาด จะส่งเสริมการพัฒนาเทคโนโลยีโมเดลขนาดใหญ่ และก่อให้เกิดประโยชน์ต่อผู้ใช้มากขึ้น ประสบการณ์การฝึกอบรม AI ที่มีประสิทธิภาพ