Recentemente, a equipe Ling do Grupo Ant divulgou um artigo técnico convincente na plataforma Arxiv de pré -impressão, intitulada "Todo flop é crucial: escalar 300 bilhões de parâmetros Hybrid Expert Ling Model sem uma GPU avançada". Este artigo detalha dois novos modelos de idiomas grandes que eles desenvolveram: Ling-Lite e Ling-plus. Os dois modelos foram projetados com várias tecnologias inovadoras que podem ser treinadas com eficiência em hardware de baixo desempenho, reduzindo significativamente os custos.
A escala de parâmetros da edição leve é de 16,8 bilhões, dos quais os parâmetros de ativação são de 2,75 bilhões. O modelo aprimorado de dock possui até 290 bilhões de parâmetros e 28,8 bilhões de parâmetros de ativação. O desempenho de ambos os modelos atinge o nível líder do setor, especialmente a versão aprimorada. Seu modelo MOE de 300 bilhões de parâmetros tem um desempenho comparável ao dos modelos de chip NVIDIA de ponta quando treinados em dispositivos de baixo desempenho usando GPUs domésticas.

Normalmente, o treinamento dos modelos MOE requer dependência de GPUs caras de alto desempenho, como o H100 e o H800 da NVIDIA, que não são apenas caras, mas também limitadas pela escassez de chips, o que afeta sua aplicação em ambientes de recursos limitados. Para esse fim, a equipe Ling do Grupo Ant propôs um novo objetivo - "não usando GPUs avançados" para expandir o modelo, rompendo as limitações de recursos e orçamentos. Suas estratégias inovadoras de treinamento incluem alocação dinâmica de parâmetros, programação de precisão mista e mecanismos de manuseio de exceção de treinamento atualizados. Essas estratégias reduzem efetivamente o tempo de resposta de interrupção, otimizam o processo de avaliação do modelo e compactam ciclos de validação em mais de 50%.
Durante o experimento, a equipe de Ling conduziu o pré-treinamento Ling-Plus em 9 trilhões de tokens. Os resultados mostram que o custo do treinamento de 1 trilhão de token usando a configuração de hardware de alto desempenho é de cerca de 6,35 milhões de yuan, enquanto depois de usar o método de otimização de Ant, o custo de treinamento do hardware de baixa especificação foi reduzido para cerca de 5,08 milhões de yuans, economizando quase 20%. Ao mesmo tempo, o desempenho é comparável ao Alibaba Tongyi Qwen2.5-72b-Instruct e Deepseek-V2.5-1210-Chat.
Se esse desempenho tecnológico puder ser amplamente utilizado, ele fornecerá soluções mais econômicas para modelos grandes domésticos, reduzirá a dependência de chips da NVIDIA e abrirá um novo caminho para o desenvolvimento futuro da inteligência artificial.