Tencent lanzó recientemente Xingmai Network 2.0, una actualización que mejora significativamente el rendimiento del entrenamiento de modelos de inteligencia artificial a gran escala. Ha logrado grandes avances en la escala de la red, el rendimiento del hardware, los protocolos de comunicación y el diagnóstico de fallas, sentando una base sólida para el entrenamiento de modelos de IA a mayor escala en el futuro. Esta actualización no solo admite la conexión en red de 100.000 tarjetas en un solo grupo, sino que también duplica la capacidad del conmutador y la velocidad del módulo óptico de silicio en términos de hardware. También está equipado con tarjetas de red de potencia informática de desarrollo propio y el ancho de banda de comunicación llega a la industria. nivel líder. Lo que es más digno de mención es que la aplicación del nuevo protocolo TiTa2.0 y la biblioteca de comunicación colectiva TCCL2.0 ha aumentado la eficiencia de la comunicación en un 60% y la eficiencia del entrenamiento de modelos grandes en un 20%.
Se entiende que, en términos de escala de red, Xingmai Network 2.0 admite un único grupo de 100.000 tarjetas, lo que proporciona un sólido soporte de infraestructura para el entrenamiento de IA a gran escala. Esta expansión sienta las bases para el entrenamiento de modelos de IA a mayor escala en el futuro.

En términos de actualizaciones de hardware, la capacidad de los conmutadores de desarrollo propio de Tencent se incrementó de 25,6T a 51,2T, duplicando la capacidad. Al mismo tiempo, la tasa de módulos ópticos de silicio de desarrollo propio se ha actualizado de 200G a 400G, y la tasa también se ha duplicado. La nueva versión también está equipada con una tarjeta de red de potencia informática de desarrollo propio, que eleva el ancho de banda de comunicación de toda la máquina a 3,2 T, ocupando el primer lugar en la industria. Estas actualizaciones de hardware proporcionan una base sólida para mejoras significativas en el rendimiento de la red.
En términos de protocolos de comunicación, Tencent lanzó un nuevo protocolo TiTa2.0 y su ubicación de implementación se trasladó de conmutadores a tarjetas de red. Al mismo tiempo, el algoritmo de congestión también se actualizó a un algoritmo de control de congestión activo. Estas optimizaciones han aumentado la eficiencia de la comunicación en un 30 % y la eficiencia de la capacitación de modelos grandes en un 10 %.
Además, Tencent también lanzó una nueva biblioteca de comunicación colectiva de alto rendimiento, TCCL2.0. Esta biblioteca utiliza la tecnología de comunicación paralela heterogénea NVLINK+NET para realizar la transmisión paralela de datos. Junto con el algoritmo adaptativo Auto-Tune Network Expert, el sistema puede ajustar automáticamente varios parámetros en función de las diferencias en el modelo, el tamaño de la red, el algoritmo del modelo, etc. Esta actualización mejora el rendimiento de la comunicación en otro 30 % y aumenta la eficiencia del entrenamiento de modelos grandes en un 10 % adicional.
Vale la pena señalar que la superposición de los efectos de actualización de TiTa y TCCL ha aumentado la eficiencia de comunicación de la red Xingmai en un total del 60%, y la eficiencia general del entrenamiento de modelos grandes ha aumentado en un 20%. Esta importante mejora del rendimiento acelerará enormemente el proceso de formación de modelos de IA y proporcionará a los investigadores y desarrolladores un entorno de trabajo más eficiente.
La actualización de Xingmai Network 2.0 demuestra la posición de liderazgo de Tencent en el campo de la tecnología de redes en muchos aspectos. Su importante mejora del rendimiento tendrá un impacto positivo en el desarrollo del campo de la inteligencia artificial y promoverá la capacitación y el desarrollo de mayor escala. Aplicación de modelos complejos de IA. Esto marca un paso importante para Tencent en la construcción de una infraestructura de inteligencia artificial de alto rendimiento.