Tencent hat kürzlich Xingmai Network 2.0 veröffentlicht, ein Upgrade, das die Trainingsleistung großer Modelle für künstliche Intelligenz erheblich verbessert. Es hat bahnbrechende Fortschritte in den Bereichen Netzwerkgröße, Hardwareleistung, Kommunikationsprotokolle und Fehlerdiagnose erzielt und damit eine solide Grundlage für das Training größerer KI-Modelle in der Zukunft gelegt. Dieses Upgrade unterstützt nicht nur die Vernetzung von 100.000 Karten in einem einzigen Cluster, sondern verdoppelt auch die Switch-Kapazität und die Geschwindigkeit des optischen Siliziummoduls in Bezug auf die Hardware. Es ist außerdem mit selbst entwickelten Netzwerkkarten mit Rechenleistung ausgestattet und die Kommunikationsbandbreite erreicht die Industrie. führendes Niveau. Bemerkenswerter ist, dass die Anwendung des neuen TiTa2.0-Protokolls und der kollektiven Kommunikationsbibliothek TCCL2.0 die Kommunikationseffizienz um 60 % und die Effizienz des Trainings großer Modelle um 20 % gesteigert hat.
Es versteht sich, dass Xingmai Network 2.0 in Bezug auf die Netzwerkskala einen einzelnen Cluster von 100.000 Karten unterstützt und so eine starke Infrastrukturunterstützung für groß angelegte KI-Schulungen bietet. Diese Erweiterung legt den Grundstein für ein umfangreicheres KI-Modelltraining in der Zukunft.

Im Hinblick auf Hardware-Upgrades wurde die Kapazität der von Tencent selbst entwickelten Switches von 25,6T auf 51,2T erhöht, was eine Verdoppelung der Kapazität bedeutet. Gleichzeitig wurde die Rate selbst entwickelter optischer Siliziummodule von 200G auf 400G erhöht und auch verdoppelt. Die neue Version ist außerdem mit einer selbst entwickelten Netzwerkkarte mit Rechenleistung ausgestattet, die die Kommunikationsbandbreite der gesamten Maschine auf 3,2 T bringt und damit den ersten Platz in der Branche einnimmt. Diese Hardware-Upgrades bieten eine solide Grundlage für deutliche Verbesserungen der Netzwerkleistung.
In Bezug auf Kommunikationsprotokolle hat Tencent ein neues TiTa2.0-Protokoll eingeführt, dessen Einsatzort von Switches auf Netzwerkkarten verschoben wurde. Gleichzeitig wurde der Staualgorithmus zu einem aktiven Staukontrollalgorithmus erweitert. Diese Optimierungen haben die Kommunikationseffizienz um 30 % und die Effizienz des Trainings großer Modelle um 10 % gesteigert.
Darüber hinaus hat Tencent auch eine neue leistungsstarke kollektive Kommunikationsbibliothek TCCL2.0 auf den Markt gebracht. Diese Bibliothek nutzt die heterogene parallele Kommunikationstechnologie NVLINK+NET, um eine parallele Datenübertragung zu realisieren. In Verbindung mit dem adaptiven Algorithmus „Auto-Tune Network Expert“ kann das System verschiedene Parameter basierend auf Unterschieden im Modell, der Netzwerkgröße, dem Modellalgorithmus usw. automatisch anpassen. Dieses Upgrade verbessert die Kommunikationsleistung um weitere 30 % und erhöht die Effizienz des Trainings großer Modelle um weitere 10 %.
Es ist erwähnenswert, dass die Überlagerung der Upgrade-Effekte von TiTa und TCCL die Kommunikationseffizienz des Xingmai-Netzwerks um insgesamt 60 % und die Gesamteffizienz des großen Modelltrainings um 20 % erhöht hat. Diese erhebliche Leistungsverbesserung wird den Trainingsprozess von KI-Modellen erheblich beschleunigen und Forschern und Entwicklern eine effizientere Arbeitsumgebung bieten.
Das Upgrade von Xingmai Network 2.0 demonstriert in vielerlei Hinsicht die führende Position von Tencent im Bereich der Netzwerktechnologie. Seine deutliche Leistungsverbesserung wird sich positiv auf die Entwicklung des Bereichs der künstlichen Intelligenz auswirken und die Ausbildung und Entwicklung größerer Unternehmen und mehr fördern komplexe KI-Modelle. Dies ist für Tencent ein wichtiger Schritt beim Aufbau einer leistungsstarken KI-Infrastruktur.