Tencent Cloud lance Xingmai Network 2.0 pour accélérer la formation de grands modèles de 20 % supplémentaires

Auteur：Eve Cole Date de mise à jour：2025-03-01 01:00:03

Tencent Cloud a publié Xingmai Network 2.0, une version améliorée du réseau conçue pour la formation de grands modèles, visant à résoudre le problème de la faible efficacité de communication dans la formation de grands modèles. Dans l'ancienne version du réseau Xingmai, le temps de synchronisation des résultats de calcul représentait plus de 50 %, affectant sérieusement l'efficacité de la formation. La nouvelle version a considérablement amélioré les performances et la fiabilité du réseau grâce à de multiples mises à niveau techniques, offrant ainsi une prise en charge plus puissante pour la formation de modèles à grande échelle.

微信截图_20240701164156.png

1. Prend en charge la mise en réseau de 100 000 cartes dans un seul cluster, doublant l'échelle, augmentant l'efficacité de la communication réseau de 60 %, augmentant l'efficacité de la formation des grands modèles de 20 % et réduisant la localisation des défauts de quelques jours à quelques minutes.

2. Les commutateurs, modules optiques, cartes réseau et autres équipements réseau auto-développés sont mis à niveau pour rendre l'infrastructure plus fiable et prendre en charge un seul cluster avec une échelle de plus de 100 000 cartes GPU.

3. Le nouveau protocole de communication TiTa2.0 est déployé sur la carte réseau et l'algorithme de congestion est mis à niveau vers un algorithme de contrôle de congestion actif. L'efficacité de la communication est augmentée de 30 % et l'efficacité de la formation des grands modèles est augmentée de 10 %.

4. La bibliothèque de communication collective haute performance TCCL2.0 utilise la communication parallèle hétérogène NVLINK+NET pour réaliser une transmission parallèle des données. Elle dispose également de l'algorithme adaptatif Auto-Tune Network Expert, qui améliore les performances de communication de 30 % et l'efficacité de la formation des grands modèles. 10 %.

5. La nouvelle plate-forme de simulation Lingjing à technologie exclusive Tencent peut surveiller entièrement le réseau de cluster, localiser avec précision les problèmes de nœuds GPU et réduire le temps de localisation des défauts de formation de niveau 10 000 ka de quelques jours à quelques minutes.

Grâce à ces mises à niveau, l'efficacité de la communication du réseau Xingmai a été augmentée de 60 %, l'efficacité de la formation des grands modèles a été augmentée de 20 % et la précision de la localisation des défauts a également été améliorée. Ces améliorations contribueront à améliorer l’efficacité et les performances de la formation de grands modèles, permettant ainsi d’utiliser plus pleinement les ressources GPU coûteuses.

La mise à niveau de Xingmai Network 2.0 a apporté des améliorations significatives de l'efficacité et une fiabilité accrue à la formation des grands modèles. Ses améliorations en matière d'équipement réseau, de protocoles de communication et de localisation des défauts favoriseront le développement de la technologie des grands modèles et apporteront des avantages aux utilisateurs. expérience de formation efficace en IA.