Tencent Cloud hat Xingmai Network 2.0 veröffentlicht, eine aktualisierte Version des Netzwerks, das für das Training großer Modelle entwickelt wurde und darauf abzielt, das Problem der geringen Kommunikationseffizienz beim Training großer Modelle zu lösen. In der alten Version des Xingmai-Netzwerks betrug die Zeit für die Synchronisierung der Berechnungsergebnisse mehr als 50 %, was die Trainingseffizienz erheblich beeinträchtigte. Die neue Version hat die Netzwerkleistung und -zuverlässigkeit durch mehrere technische Upgrades erheblich verbessert und bietet eine leistungsfähigere Unterstützung für das Training groß angelegter Modelle.

1. Unterstützt die Vernetzung von 100.000 Karten in einem einzigen Cluster, verdoppelt die Skalierung, erhöht die Effizienz der Netzwerkkommunikation um 60 %, steigert die Effizienz beim Training großer Modelle um 20 % und reduziert die Fehlerortung von Tagen auf Minuten.
2. Selbst entwickelte Switches, optische Module, Netzwerkkarten und andere Netzwerkgeräte werden aktualisiert, um die Infrastruktur zuverlässiger zu machen und einen einzelnen Cluster mit einer Größenordnung von mehr als 100.000 GPU-Karten zu unterstützen.
3. Das neue Kommunikationsprotokoll TiTa2.0 wird auf der Netzwerkkarte bereitgestellt und der Überlastungsalgorithmus wird zu einem aktiven Überlastungskontrollalgorithmus aktualisiert. Die Kommunikationseffizienz wird um 30 % und die Effizienz des Trainings großer Modelle um 10 % erhöht.
4. Die leistungsstarke kollektive Kommunikationsbibliothek TCCL2.0 nutzt die heterogene parallele Kommunikation von NVLINK+NET, um eine parallele Übertragung von Daten zu realisieren. Sie verfügt außerdem über den adaptiven Auto-Tune Network Expert-Algorithmus, der die Kommunikationsleistung um 30 % und die Effizienz des großen Modelltrainings verbessert 10 %.
5. Die neu hinzugefügte Lingjing-Simulationsplattform mit exklusiver Tencent-Technologie kann das Clusternetzwerk vollständig überwachen, GPU-Knotenprobleme genau lokalisieren und die Zeit zum Auffinden von Trainingsfehlern auf 10.000-ka-Ebene von Tagen auf Minuten verkürzen.
Durch diese Upgrades wurde die Kommunikationseffizienz des Xingmai-Netzwerks um 60 % erhöht, die Effizienz des Trainings großer Modelle um 20 % gesteigert und auch die Genauigkeit der Fehlerortung verbessert. Diese Verbesserungen werden dazu beitragen, die Effizienz und Leistung des Trainings großer Modelle zu verbessern, sodass teure GPU-Ressourcen besser genutzt werden können.
Das Upgrade des Xingmai-Netzwerks 2.0 hat zu erheblichen Effizienzsteigerungen und einer höheren Zuverlässigkeit beim Training großer Modelle geführt. Die Verbesserungen bei der Netzwerkausrüstung, den Kommunikationsprotokollen und der Fehlerortung werden die Entwicklung der Technologie großer Modelle fördern und den Benutzern Vorteile bringen. effektive KI-Trainingserfahrung.