Tencent a récemment publié Xingmai Network 2.0, une mise à niveau qui améliore considérablement les performances de formation des modèles d'intelligence artificielle à grande échelle. Il a réalisé des progrès révolutionnaires en termes d'échelle du réseau, de performances matérielles, de protocoles de communication et de diagnostic des pannes, jetant ainsi une base solide pour la formation future de modèles d'IA à plus grande échelle. Cette mise à niveau prend non seulement en charge la mise en réseau de 100 000 cartes dans un seul cluster, mais double également la capacité du commutateur et la vitesse du module optique en silicium en termes de matériel. Elle est également équipée de cartes réseau de puissance de calcul auto-développées, et la bande passante de communication atteint l'industrie. niveau leader. Ce qui est plus remarquable, c'est que l'application du nouveau protocole TiTa2.0 et de la bibliothèque de communication collective TCCL2.0 a augmenté l'efficacité de la communication de 60 % et l'efficacité de la formation des grands modèles de 20 %.
Il est entendu qu'en termes d'échelle de réseau, Xingmai Network 2.0 prend en charge un seul cluster de 100 000 cartes, fournissant ainsi un solide support d'infrastructure pour la formation à l'IA à grande échelle. Cette expansion jette les bases d’une formation future de modèles d’IA à plus grande échelle.

En termes de mises à niveau matérielles, la capacité des commutateurs développés par Tencent a été augmentée de 25,6T à 51,2T, doublant ainsi la capacité. Dans le même temps, le taux de modules optiques en silicium auto-développés est passé de 200G à 400G, et le taux a également doublé. La nouvelle version est également équipée d'une carte réseau de puissance de calcul auto-développée, qui porte la bande passante de communication de l'ensemble de la machine à 3,2 T, ce qui la classe au premier rang du secteur. Ces mises à niveau matérielles constituent une base solide pour des améliorations significatives des performances du réseau.
En termes de protocoles de communication, Tencent a lancé un nouveau protocole TiTa2.0 et son emplacement de déploiement a été déplacé des commutateurs vers les cartes réseau. Dans le même temps, l’algorithme de congestion a également été mis à niveau vers un algorithme de contrôle actif de la congestion. Ces optimisations ont augmenté l'efficacité de la communication de 30 % et l'efficacité de la formation des grands modèles de 10 %.
En outre, Tencent a également lancé une nouvelle bibliothèque de communication collective haute performance TCCL2.0. Cette bibliothèque utilise la technologie de communication parallèle hétérogène NVLINK+NET pour réaliser une transmission parallèle de données. Couplé à l'algorithme adaptatif Auto-Tune Network Expert, le système peut ajuster automatiquement divers paramètres en fonction des différences de modèle, de taille de réseau, d'algorithme de modèle, etc. Cette mise à niveau améliore les performances de communication de 30 % supplémentaires et augmente l'efficacité de la formation des grands modèles de 10 % supplémentaires.
Il convient de noter que la superposition des effets de mise à niveau de TiTa et TCCL a augmenté l'efficacité de la communication du réseau Xingmai d'un total de 60 % et que l'efficacité globale de la formation des grands modèles a augmenté de 20 %. Cette amélioration significative des performances accélérera considérablement le processus de formation des modèles d’IA et offrira aux chercheurs et aux développeurs un environnement de travail plus efficace.
La mise à niveau de Xingmai Network 2.0 démontre la position de leader de Tencent dans le domaine de la technologie de réseau à bien des égards. Son amélioration significative des performances aura un impact positif sur le développement du domaine de l'intelligence artificielle et favorisera la formation et le développement à plus grande échelle et plus encore. modèles d'IA complexes. Cela marque une étape importante pour Tencent dans la création d’une infrastructure d’IA hautes performances.