Lenovoは本日、最初のAMD AIビッグモデルトレーニングサーバーであるLenovo Wentian WA7785A G3が、671B(フルブードバージョン)DeepSeek Big Modelをスタンドアロンマシンに展開すると、最大6708TOKEN/sの極端なスループットを達成したことを発表しました。
報告によると、このパフォーマンスのブレークスルーは、Lenovo Wanquanの不均一なインテリジェントコンピューティングプラットフォームの強力なサポートによるものです。 Lenovoは、メモリアクセスの最適化、ビデオメモリの最適化、革新的なPCIE5.0フルインターコネクトアーキテクチャ、Sglangフレームワークで選択された最適な演算子などの一連の革新的な技術的手段を通じて、トレーニング前、トレーニング後の推論からの大規模モデルのプロセス全体を継続的に最適化しています。実際のテスト結果は、deepseek671bビッグモデルを展開するLenovo Wentian WA7785A G3サーバーで、最高のスループットが驚くべき6708TOKEN/sに達することを示しています。

問題の会話シナリオ(コンテキストシーケンス長128/1K)をシミュレートする場合、サーバーは最大158の並行性番号をサポートできます。TPOT(出力トークンあたりの時間)は93ミリ秒、TTFT(最初のトークンまでの時間)は2.01秒です。コード生成シナリオ(コンテキストシーケンス長512/4K)をシミュレートすると、並行性数は140に達し、TPOTは100ミリ秒、TTFTは5.53秒です。 Lenovo氏によると、このパフォーマンスは、単一のLenovo Wentian WA7785A G3サーバーが1,500人のスケールで企業の通常の使用をサポートできることを意味すると述べました。これは、Deepseek Bigモデルの完全なバージョンがシングルマシンDeepseek Bigモデルによって展開された後、Lenovo Wentian WA7780G3サーバーによって展開された大規模モデルの推論パフォーマンスのもう1つの大きな飛躍です。
Lenovoは、この技術的ブレークスルーは、Lenovo China Infrastructure Business Groupの共同設計、共同最適化、およびLenovo Research Institute ICI LaboratoryおよびAMDの共同実施の結果であると強調しました。同時に、これは最終結果ではありません。 LenovoとAMDは、より高いパフォーマンスのブレークスルーを達成するために、まだ深いチューニングの新しい方法を探求し続けています。