Tencent は最近、大規模な人工知能モデルのトレーニング パフォーマンスを大幅に向上させるアップグレードである Xingmai Network 2.0 をリリースしました。ネットワーク規模、ハードウェアパフォーマンス、通信プロトコル、障害診断において画期的な進歩を遂げ、将来の大規模な AI モデルトレーニングのための強固な基盤を築きました。このアップグレードは、単一クラスター内で 100,000 枚のカード ネットワーキングをサポートするだけでなく、ハードウェア面でのスイッチ容量とシリコン光モジュールの速度も 2 倍に向上します。また、自社開発のコンピューティング パワー ネットワーク カードも搭載され、通信帯域幅は業界に達します。一流レベル。さらに注目すべき点は、新しい TiTa2.0 プロトコルと TCCL2.0 集合通信ライブラリの適用により、通信効率が 60%、大規模モデルのトレーニング効率が 20% 向上したことです。
ネットワーク規模の点では、Xingmai Network 2.0 は 100,000 枚のカードからなる単一クラスターをサポートし、大規模な AI トレーニングに強力なインフラストラクチャ サポートを提供することがわかります。この拡張は、将来の大規模な AI モデル トレーニングの基礎を築きます。

ハードウェアのアップグレードに関しては、Tencent が自社開発したスイッチの容量が 25.6T から 51.2T に増加し、容量が 2 倍になりました。同時に自社開発のシリコン光モジュールの速度も200Gから400Gに向上し、速度も2倍になった。新バージョンでは自社開発のコンピューティングパワーネットワークカードも搭載しており、マシン全体の通信帯域幅は業界トップクラスの3.2Tとなっている。これらのハードウェアのアップグレードは、ネットワーク パフォーマンスを大幅に向上させるための強固な基盤を提供します。
通信プロトコルに関しては、Tencent は新しい TiTa2.0 プロトコルを開始し、その導入場所はスイッチからネットワーク カードに移されました。同時に、輻輳アルゴリズムもアクティブ輻輳制御アルゴリズムにアップグレードされました。これらの最適化により、通信効率が 30%、大規模モデルのトレーニング効率が 10% 向上しました。
さらに、テンセントは新しい高性能集団通信ライブラリ TCCL2.0 も発表しました。このライブラリは、NVLINK+NET 異種並列通信技術を使用して、データの並列伝送を実現します。 Auto-Tune Network Expert 適応アルゴリズムと組み合わせることで、システムはモデル、ネットワーク サイズ、モデル アルゴリズムなどの違いに基づいてさまざまなパラメーターを自動的に調整できます。このアップグレードにより、通信パフォーマンスがさらに 30% 向上し、大規模モデルのトレーニング効率がさらに 10% 向上します。
TiTaとTCCLのアップグレード効果の重ね合わせにより、Xingmaiネットワークの通信効率が合計60%向上し、大規模モデル全体のトレーニング効率が20%向上したことは注目に値します。この大幅なパフォーマンスの向上により、AI モデルのトレーニング プロセスが大幅に加速され、研究者や開発者により効率的な作業環境が提供されます。
Xingmai Network 2.0 のアップグレードは、多くの面で Tencent がネットワーク技術分野で主導的地位を占めていることを示しており、その大幅なパフォーマンス向上は人工知能分野の発展にプラスの影響を与え、より大規模な人工知能のトレーニングと開発を促進します。複雑な AI モデル。 これは、テンセントにとって高性能 AI インフラストラクチャを構築する上で重要なステップとなります。