Lenovo Werian WA7785A G3 Server définit l'enregistrement! Exécutant 671b stand-alone Deepseek Big Modèle débit jusqu'à 6708Token / s! - Article AI

Auteur：Eve Cole Date de mise à jour：2025-05-20 17:50:02

2025 Binance directe

Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜

Lenovo a annoncé aujourd'hui que son premier serveur de formation AMD AI Big Model, Lenovo Wentian WA7785A G3, a atteint un débit extrême jusqu'à 6708Token / s lors du déploiement de la machine stan-alone 671B (version complète) exécutant des modèles de super-échelle de grande envergure.

Selon les rapports, cette percée de performance est due au fort soutien de la plate-forme informatique intelligente hétérogène de Lenovo Wanquan. Lenovo optimise en permanence l'ensemble du processus de grands modèles, de la pré-formation, du post-formation à l'inférence grâce à une série de moyens techniques innovants tels que l'optimisation de l'accès à la mémoire, l'optimisation de la mémoire vidéo, l'architecture innovante de PCIE5.0 à interconnexion complète et les opérateurs optimaux sélectionnés dans le cadre SGLANG. Les résultats réels des tests montrent que sur le serveur Lenovo Weorian WA7785A G3 qui déploie le grand modèle Deepseek671b, le débit le plus élevé atteint un étonnant 6708Token / s.

GPU 芯片 (5)

Lors de la simulation d'un scénario de conversation problématique (longueur de séquence de contexte 128 / 1K), le serveur peut prendre en charge jusqu'à 158 nombres de concurrence, TPOT (temps par jeton de sortie) est de 93 millisecondes, TTFT (temps de premier jeton) est de 2,01 secondes; Lors de la simulation d'un scénario de génération de code (longueur de séquence de contexte 512 / 4K), les numéros de concurrence peuvent atteindre 140, le TPOT est de 100 millisecondes et TTFT est de 5,53 secondes. Lenovo a déclaré que ces performances signifient qu'un seul serveur Lenovo Weovo Wadian WA7785A G3 peut prendre en charge l'utilisation normale des entreprises avec une échelle de 1 500 personnes. Il s'agit d'un autre saut majeur dans les performances d'inférence du modèle à grande échelle déployés par le serveur Lenovo Weorian WA7780G3, après que la version complète du Big Model Deepseek a été déployée par le grand modèle Deepseek unique.

Lenovo a souligné que cette percée technologique est le résultat de la conception conjointe, de l'optimisation collaborative et de la mise en œuvre conjointe du Lenovo China Infrastructure Business Group, Lenovo Research Institute Laboratory et AMD. En même temps, ce n'est pas le résultat final. Lenovo et AMD continuent d'élaborer de nouvelles méthodes de réglage profond afin d'atteindre des percées de performance plus élevées.