A Tencent lançou recentemente o Xingmai Network 2.0, uma atualização que melhora significativamente o desempenho de treinamento de modelos de inteligência artificial em grande escala. Ela fez progressos revolucionários em escala de rede, desempenho de hardware, protocolos de comunicação e diagnóstico de falhas, estabelecendo uma base sólida para o treinamento de modelos de IA em larga escala no futuro. Esta atualização não apenas suporta redes de 100.000 placas em um único cluster, mas também duplica a capacidade do switch e a velocidade do módulo óptico de silício em termos de hardware. -nível de liderança. O que é mais digno de nota é que a aplicação do novo protocolo TiTa2.0 e da biblioteca de comunicação coletiva TCCL2.0 aumentou a eficiência da comunicação em 60% e a eficiência do treinamento de modelos grandes em 20%.
Entende-se que em termos de escala de rede, a Rede Xingmai 2.0 suporta um único cluster de 100.000 cartões, fornecendo forte suporte de infraestrutura para treinamento de IA em larga escala. Esta expansão estabelece as bases para o treinamento de modelos de IA em larga escala no futuro.

Em termos de atualizações de hardware, a capacidade dos switches desenvolvidos pela própria Tencent aumentou de 25,6T para 51,2T, dobrando a capacidade. Ao mesmo tempo, a taxa de módulos ópticos de silício autodesenvolvidos foi atualizada de 200G para 400G, e a taxa também dobrou. A nova versão também está equipada com uma placa de rede de poder computacional desenvolvida pela própria empresa, que eleva a largura de banda de comunicação de toda a máquina para 3,2T, ocupando o primeiro lugar no setor. Essas atualizações de hardware fornecem uma base sólida para melhorias significativas no desempenho da rede.
Em termos de protocolos de comunicação, a Tencent lançou um novo protocolo TiTa2.0 e seu local de implantação foi transferido de switches para placas de rede. Ao mesmo tempo, o algoritmo de congestionamento também foi atualizado para um algoritmo de controle de congestionamento ativo. Essas otimizações aumentaram a eficiência da comunicação em 30% e a eficiência do treinamento de modelos grandes em 10%.
Além disso, a Tencent também lançou uma nova biblioteca de comunicação coletiva de alto desempenho, TCCL2.0. Esta biblioteca usa tecnologia de comunicação paralela heterogênea NVLINK+NET para realizar a transmissão paralela de dados. Juntamente com o algoritmo adaptativo Auto-Tune Network Expert, o sistema pode ajustar automaticamente vários parâmetros com base nas diferenças de modelo, tamanho da rede, algoritmo do modelo, etc. Esta atualização melhora o desempenho da comunicação em mais 30% e aumenta a eficiência do treinamento de modelos grandes em mais 10%.
É importante notar que a superposição dos efeitos de atualização de TiTa e TCCL aumentou a eficiência de comunicação da rede Xingmai em um total de 60%, e a eficiência geral de treinamento de grandes modelos aumentou em 20%. Esta melhoria significativa de desempenho acelerará enormemente o processo de treinamento de modelos de IA e proporcionará aos pesquisadores e desenvolvedores um ambiente de trabalho mais eficiente.
A atualização da Rede Xingmai 2.0 demonstra a posição de liderança da Tencent no campo da tecnologia de rede em muitos aspectos. Sua melhoria significativa de desempenho terá um impacto positivo no desenvolvimento do campo da inteligência artificial e promoverá o treinamento e o desenvolvimento em larga escala e muito mais. aplicação de modelos complexos de IA. Isto marca um passo importante para a Tencent na construção de infraestrutura de IA de alto desempenho.