Tencent Cloud は、大規模モデルのトレーニングにおける通信効率の低さの問題を解決することを目的として、大規模モデルのトレーニング用に設計されたネットワークのアップグレード バージョンである Xingmai Network 2.0 をリリースしました。 Xingmai ネットワークの古いバージョンでは、計算結果の同期にかかる時間が 50% 以上を占め、トレーニング効率に深刻な影響を及ぼしていました。新しいバージョンでは、複数の技術アップグレードによりネットワークのパフォーマンスと信頼性が大幅に向上し、大規模なモデルのトレーニングに対するより強力なサポートが提供されます。

1. 単一クラスターで 100,000 枚のカード ネットワーキングをサポートし、規模を 2 倍にし、ネットワーク通信効率を 60% 向上させ、大規模モデルのトレーニング効率を 20% 向上させ、障害位置を数日から数分に短縮します。
2. 自社開発のスイッチ、光モジュール、ネットワーク カード、その他のネットワーク機器がアップグレードされ、インフラストラクチャの信頼性が向上し、100,000 GPU カードを超える規模の単一クラスターをサポートします。
3. 新しい通信プロトコル TiTa2.0 がネットワーク カードに導入され、輻輳アルゴリズムがアクティブ輻輳制御アルゴリズムにアップグレードされ、通信効率が 30% 向上し、大規模モデルのトレーニング効率が 10% 向上しました。
4. 高性能集合通信ライブラリ TCCL2.0 は、NVLINK+NET ヘテロジニアス並列通信を使用してデータの並列送信を実現します。また、Auto-Tune Network Expert 適応アルゴリズムを備えており、通信パフォーマンスが 30% 向上し、大規模モデルのトレーニング効率が向上します。 10%。
5. 新しく追加された Tencent 独自のテクノロジー Lingjing シミュレーション プラットフォームは、クラスター ネットワークを完全に監視し、GPU ノードの問題を正確に特定し、10,000 ka レベルのトレーニング障害を特定する時間を数日から数分に短縮します。
これらのアップグレードにより、Xingmai ネットワークの通信効率は 60% 向上し、大規模モデルのトレーニング効率は 20% 向上し、障害位置の精度も向上しました。これらの改善により、大規模モデルのトレーニングの効率とパフォーマンスが向上し、高価な GPU リソースをより最大限に活用できるようになります。
Xingmai Network 2.0 のアップグレードにより、大規模モデルのトレーニングの効率が大幅に向上し、信頼性が向上しました。これにより、ネットワーク機器、通信プロトコル、および障害位置が改善され、大規模モデル テクノロジの開発が促進され、ユーザーにさらなるメリットがもたらされます。効果的な AI トレーニングの経験。