Lenovo Wentian WA7785A G3 Define o registro! Executando 671b Stand-Agone Deepseek Big Model Tribunal de até 6708Token/S! - Artigo da IA

Autor：Eve Cole Data da Última Atualização：2025-05-20 17:50:02

2025 Binance Direct

A Lenovo anunciou hoje que seu primeiro servidor de treinamento de modelos de Big Model AMD, a Lenovo Wentian WA7785A G3, alcançou uma taxa de transferência extrema de até 6708Token/s ao implantar o 671B (versão de sangue total) que corre o excelente modelo em um stand-alone-s, mais uma vez que quebra o registro do desempenho de um servidor de um único servidor), em um único servidor-lames-lames, que está sendo um único servidor-lames-lames-lames-lige, que se destaca, mais uma vez o registro de um único desempenho de um único servidor de um servidor de um servidor, em um único desempenho, em um único servidor, que está em full.

Segundo relatos, esse avanço de desempenho se deve ao forte apoio da plataforma de computação inteligente heterogênea de Lenovo Wanquan. A Lenovo otimiza continuamente todo o processo de grandes modelos, desde pré-treinamento, pós-treinamento até inferência por meio de uma série de meios técnicos inovadores, como otimização de acesso à memória, otimização de memória de vídeo, arquitetura inovadora do PCIE5.0 integral e operadores ótimos selecionados na estrutura SGLANG. Os resultados reais dos testes mostram que, no servidor Lenovo Wentian WA7785A G3 que implanta o modelo Big do DeepSeek671b, a maior taxa de transferência atinge um surpreendente 6708Token/s.

GPU 芯片 (5)

Ao simular um cenário de conversa sobre problemas (comprimento da sequência de contexto 128/1k), o servidor pode suportar até 158 números de simultaneidade, o TPOT (tempo por token de saída) é de 93 milissegundos, o TTFT (tempo para o primeiro token) é de 2,01 segundos; Ao simular um cenário de geração de código (comprimento da sequência de contexto 512/4K), os números de simultaneidade podem atingir 140, o TPOT é de 100 milissegundos e o TTFT é de 5,53 segundos. A Lenovo disse que esse desempenho significa que um único servidor Lenovo Wentian WA7785A G3 pode suportar o uso normal de empresas com uma escala de 1.500 pessoas. É outro grande salto no desempenho da inferência do modelo em larga escala implantado pelo servidor WA7780G3 Lenovo Wentian, depois que a versão de sangue total do Big Modelo Deepseek foi implantado pelo modelo Big Big Modine Deepseek.

A Lenovo enfatizou que esse avanço tecnológico é o resultado do projeto conjunto, otimização colaborativa e implementação conjunta do Grupo de Negócios de Infraestrutura da Lenovo China, o Laboratório da ICI da Lenovo Research Institute e a AMD. Ao mesmo tempo, este não é o resultado final. A Lenovo e a AMD ainda continuam a explorar novos métodos de ajuste profundo, a fim de obter mais avanços no desempenho.