A equipe de maquete de Doubao da Bydance anunciou recentemente um grande avanço tecnológico, superando com sucesso o principal gargalo da arquitetura do Modelo de Especialistas Híbridos (MOE) e de código aberto uma tecnologia de otimização chamada Comet. Essa tecnologia não apenas melhora significativamente a eficiência de treinamento de grandes modelos, mas também reduz bastante os custos de treinamento, trazendo novas oportunidades de desenvolvimento ao campo de grandes modelos.
O núcleo da tecnologia Comet está em seus recursos de otimização eficiente, o que pode aumentar a eficiência do treinamento de modelos grandes para 1,7 vezes, reduzindo os custos de treinamento em 40%. Esse resultado inovador foi praticamente aplicado no treinamento de cluster Wanka da Bytedance, economizando milhões de horas de GPU de poder de treinamento no total, demonstrando seu poderoso desempenho em cenários reais.
Comparado com soluções de otimização de MOE, como o Dualpipe, que é de origem aberta pela Deepseek, a tecnologia Comet tem mais forte compatibilidade e conveniência. Ele pode se conectar diretamente à estrutura de treinamento do MOE existente, como um plug-in, suportando grandes modelos grandes no setor sem modificações invasivas na estrutura de treinamento. Esse recurso de integração contínuo torna o Comet mais flexível e eficiente em aplicações técnicas.
Os dados técnicos mostram que, após a introdução do cometa, uma única camada MOE pode atingir a aceleração de 1,96 vezes e um aumento de eficiência média de ponta a ponta de 1,71 vezes. Além disso, o COMET mostrou desempenho estável em diferentes estratégias paralelas, escalas de entrada e ambientes de hardware, demonstrando sua ampla aplicabilidade. O mais digno de nota é que o cometa também pode ser usado em conjunto com a solução Dualpipe da Deepseek, que deve comprimir bastante o custo de treinamento do modelo.
O código aberto dessa tecnologia, sem dúvida, traz novos avanços no campo de grandes modelos e deve acelerar a pesquisa e o desenvolvimento e a aplicação de grandes modelos. Ao reduzir os custos de treinamento e melhorar a eficiência, a tecnologia COMET fornecerá suporte a mais empresas e instituições de pesquisa para promover o desenvolvimento adicional da tecnologia de inteligência artificial.
Endereço em papel: https://arxiv.org/pdf/2502.19811
Endereço de código aberto: https://github.com/bytedance/flux?continueflag=c1d74dd2912ab3909a1a27fe4f5cf519