¡El servidor Lenovo Wentian WA7785A G3 establece el registro! Running 671b Stand-ELOWSEK Big Model Worthip hasta 6708Token/s! - Artículo de IA

Autor：Eve Cole Fecha de actualización：2025-05-20 17:50:02

2025 binance directo

Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜

Lenovo anunció hoy que su primer servidor de capacitación de modelos Big Model AMD, Lenovo Wentian WA7785A G3, logró un rendimiento extremo de hasta 6708Token/s al implementar el modelo BigSeek de 671B (versión de sangre completa) en una máquina de mantenimiento independiente, una vez más que rompió el registro de la actuación de un solo servidor de un solo servidor.

Según los informes, este avance de rendimiento se debe al fuerte apoyo de la plataforma de computación inteligente heterogénea de Lenovo Wanquan. Lenovo optimiza continuamente todo el proceso de grandes modelos, desde el entrenamiento previo, el entrenamiento posterior hasta la inferencia a través de una serie de medios técnicos innovadores, como la optimización de acceso a la memoria, la optimización de memoria de video, la innovadora arquitectura de interferencia completa de PCIe5.0 y los operadores óptimos seleccionados en el marco Sglang. Los resultados de las pruebas reales muestran que en el servidor Lenovo Wentian WA7785A G3 que despliega el modelo BigSeek671b Big, el rendimiento más alto alcanza un asombroso 6708Token/s.

GPU 芯片 (5)

Al simular un escenario de conversación problemático (longitud de secuencia de contexto 128/1k), el servidor puede admitir hasta 158 números de concurrencia, TPOT (tiempo por salida token) es de 93 milisegundos, TTFT (tiempo a primer token) es de 2.01 segundos; Al simular un escenario de generación de código (longitud de secuencia de contexto 512/4K), los números de concurrencia pueden alcanzar 140, TPOT es de 100 milisegundos y TTFT es de 5.53 segundos. Lenovo dijo que este rendimiento significa que un solo servidor G3 de Lenovo Wentian WA7785A puede soportar el uso normal de empresas con una escala de 1.500 personas. Es otro salto importante en el rendimiento de inferencia del modelo a gran escala desplegado por el servidor Lenovo Wentian WA7780G3, después de que la versión de sangre completa del modelo de DeepSeek Big fue desplegado por el modelo Big de Deepseek de una sola máquina.

Lenovo enfatizó que este avance tecnológico es el resultado del diseño conjunto, la optimización colaborativa y la implementación conjunta del Grupo de Negocios de Infraestructura de Lenovo China, Lenovo Research Institute ICI Laboratory and AMD. Al mismo tiempo, este no es el resultado final. Lenovo y AMD aún continúan explorando nuevos métodos de ajuste profundo para lograr avances de mayor rendimiento.