Lenovo는 오늘 최초의 AMD AI BIG Model Training Server 인 Lenovo Gentian WA7785A G3은 671B (전혈 버전) DeepSeek Big Model을 독립형 기계에 배포 할 때 최대 6708token/s의 극단적 인 처리량을 달성했으며, 싱글 서버를 실행하는 단일 서버의 성능을 다시 한 번 슈퍼-스케일 모델을 운영하고 있다고 발표했습니다.
보고서에 따르면,이 성능 혁신은 Lenovo Wanquan 이질적인 지능형 컴퓨팅 플랫폼의 강력한 지원 때문입니다. Lenovo는 메모리 액세스 최적화, 비디오 메모리 최적화, 혁신적인 PCIE5.0 전체 인터커니트 아키텍처 및 SGLANG 프레임 워크에서 선택한 최적 연산자와 같은 일련의 혁신적인 기술 수단을 통해 미리 훈련, 사후 훈련, 추론에서 추론에 이르기까지 대형 모델의 전체 프로세스를 지속적으로 최적화합니다. 실제 테스트 결과는 Lenovo Gentian WA7785A G3 서버에서 DeepSeek671B Big Model을 배포하는 것이 가장 높은 처리량이 놀라운 6708token/s에 도달 함을 보여줍니다.

문제 대화 시나리오 (컨텍스트 시퀀스 길이 128/1k)를 시뮬레이션 할 때 서버는 최대 158 개의 동시성 번호를 지원할 수 있고, TPOT (출력 토큰 당 시간)는 93 밀리 초이고 TTFT (첫 번째 토큰 시간)는 2.01 초입니다. 코드 생성 시나리오 (컨텍스트 시퀀스 길이 512/4k)를 시뮬레이션 할 때 동시성 숫자는 140, TPOT는 100 밀리 초, TTFT는 5.53 초입니다. Lenovo는이 성능은 단일 Lenovo Gentian WA7785A G3 서버가 1,500 명의 규모의 기업의 정상적인 사용을 지원할 수 있음을 의미한다고 말했다. Lenovo Gentian WA7780G3 서버가 배포 한 대규모 모델의 추론 성능의 또 다른 주요 도약입니다. Deepseek Big Model의 전혈 버전이 단일 Machine Deepseek Big Model에 의해 배포 된 후.
Lenovo는이 기술 혁신이 Lenovo China Infrastructure Business Group, Lenovo Research Institute ICI Laboratory 및 AMD의 공동 설계, 협업 최적화 및 공동 구현의 결과라고 강조했습니다. 동시에 이것은 최종 결과가 아닙니다. Lenovo와 AMD는 여전히 더 높은 성능 혁신을 달성하기 위해 새로운 튜닝 방법을 계속 탐색하고 있습니다.