A Tencent Cloud lançou o Xingmai Network 2.0, uma versão atualizada da rede projetada para treinamento de grandes modelos, com o objetivo de resolver o problema de baixa eficiência de comunicação no treinamento de grandes modelos. Na versão antiga da rede Xingmai, o tempo de sincronização dos resultados dos cálculos representava mais de 50%, afetando seriamente a eficiência do treinamento. A nova versão melhorou significativamente o desempenho e a confiabilidade da rede por meio de diversas atualizações técnicas, fornecendo suporte mais poderoso para treinamento de modelos em larga escala.

1. Suporta rede de 100.000 placas em um único cluster, dobrando a escala, aumentando a eficiência da comunicação de rede em 60%, aumentando a eficiência de treinamento de modelos grandes em 20% e reduzindo a localização de falhas de dias para minutos.
2. Switches, módulos ópticos, placas de rede e outros equipamentos de rede autodesenvolvidos são atualizados para tornar a infraestrutura mais confiável e suportar um único cluster com escala de mais de 100.000 placas GPU.
3. O novo protocolo de comunicação TiTa2.0 é implantado na placa de rede e o algoritmo de congestionamento é atualizado para um algoritmo de controle de congestionamento ativo. A eficiência da comunicação é aumentada em 30% e a eficiência de treinamento de modelos grandes é aumentada em 10%.
4. A biblioteca de comunicação coletiva de alto desempenho TCCL2.0 usa comunicação paralela heterogênea NVLINK + NET para realizar a transmissão paralela de dados. Ela também possui o algoritmo adaptativo Auto-Tune Network Expert, que melhora o desempenho da comunicação em 30% e a eficiência de treinamento de modelos grandes em. 10%.
5. A recém-adicionada plataforma de simulação Lingjing com tecnologia exclusiva da Tencent pode monitorar totalmente a rede do cluster, localizar com precisão problemas de nó de GPU e reduzir o tempo para localizar falhas de treinamento de nível 10.000 ka de dias para minutos.
Através dessas atualizações, a eficiência de comunicação da rede Xingmai aumentou em 60%, a eficiência de treinamento de modelos grandes aumentou em 20% e a precisão da localização de falhas também foi melhorada. Essas melhorias ajudarão a melhorar a eficiência e o desempenho do treinamento de modelos grandes, permitindo que recursos caros de GPU sejam utilizados de forma mais completa.
A atualização da Rede Xingmai 2.0 trouxe melhorias significativas de eficiência e maior confiabilidade para o treinamento de modelos de grande porte. Suas melhorias nos equipamentos de rede, protocolos de comunicação e localização de falhas promoverão o desenvolvimento de tecnologia de modelos de grande porte e trarão benefícios para os usuários. experiência eficaz de treinamento em IA.