เซิร์ฟเวอร์ Lenovo Wentian Wa7785a G3 ตั้งค่าบันทึก! รัน 671b แบบสแตนด์อโลน Deepseek Model Big Model สูงถึง 6708Token/s! - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-20 17:50:02

2025 Binance Direct

Lenovo ประกาศในวันนี้ว่าเซิร์ฟเวอร์การฝึกอบรมรุ่นใหญ่ AMD AI รุ่นแรกของ Lenovo Wentian WA7785A G3 ได้รับปริมาณงานสูงสุดถึง 6708Token/s เมื่อปรับใช้โมเดลขนาดใหญ่ที่เต็มไปด้วยความยาว 671B

ตามรายงานการพัฒนาประสิทธิภาพนี้เกิดจากการสนับสนุนที่แข็งแกร่งของแพลตฟอร์มการคำนวณอัจฉริยะที่ต่างกันของ Lenovo Wanquan Lenovo เพิ่มประสิทธิภาพกระบวนการทั้งหมดของโมเดลขนาดใหญ่อย่างต่อเนื่องตั้งแต่การฝึกอบรมก่อนการฝึกอบรมไปจนถึงการอนุมานผ่านชุดของวิธีการทางเทคนิคที่เป็นนวัตกรรมเช่นการเพิ่มประสิทธิภาพการเข้าถึงหน่วยความจำการเพิ่มประสิทธิภาพหน่วยความจำวิดีโอการปรับแต่ง PCIE5.0 แบบเต็มรูปแบบการเชื่อมต่อและผู้ให้บริการที่ดีที่สุดในกรอบ SGLANG ผลการทดสอบที่แท้จริงแสดงให้เห็นว่าบนเซิร์ฟเวอร์ Lenovo Wentian Wa7785a G3 ที่ปรับใช้รุ่นใหญ่ Deepseek671B Big, ปริมาณงานสูงสุดถึง 6708Token/s ที่น่าอัศจรรย์

GPU 芯片 (5)

เมื่อจำลองสถานการณ์การสนทนาที่มีปัญหา (ความยาวลำดับบริบท 128/1K) เซิร์ฟเวอร์สามารถรองรับหมายเลขพร้อมกันได้สูงสุด 158 หมายเลข TPOT (เวลาต่อโทเค็นเอาท์พุท) คือ 93 มิลลิวินาที TTFT (เวลาเข้าโทเค็นแรก) คือ 2.01 วินาที; เมื่อจำลองสถานการณ์การสร้างรหัส (ความยาวลำดับบริบท 512/4K) ตัวเลขพร้อมกันสามารถถึง 140, TPOT คือ 100 มิลลิวินาทีและ TTFT คือ 5.53 วินาที Lenovo กล่าวว่าการแสดงนี้หมายความว่าเซิร์ฟเวอร์ Lenovo Wentian We7785a G3 เดียวสามารถรองรับการใช้งานปกติขององค์กรที่มีระดับ 1,500 คน มันเป็นอีกหนึ่งการก้าวกระโดดครั้งใหญ่ในประสิทธิภาพการอนุมานของรุ่นขนาดใหญ่ที่ใช้โดยเซิร์ฟเวอร์ Lenovo Wentian Wa7780G3 หลังจากรุ่น Full-Blood ของ Deepseek Big Model ถูกนำไปใช้โดยรุ่นใหญ่ขนาดใหญ่

Lenovo เน้นว่าการพัฒนาทางเทคโนโลยีนี้เป็นผลมาจากการออกแบบร่วมการเพิ่มประสิทธิภาพการทำงานร่วมกันและการดำเนินการร่วมกันของกลุ่มธุรกิจโครงสร้างพื้นฐาน Lenovo China, Lenovo Research Institute ICI Laboratory และ AMD ในเวลาเดียวกันนี่ไม่ใช่ผลลัพธ์สุดท้าย Lenovo และ AMD ยังคงสำรวจวิธีการใหม่ของการปรับแต่งอย่างต่อเนื่องเพื่อให้บรรลุการพัฒนาประสิทธิภาพที่สูงขึ้น