人工知能の分野では、ムーアスレッドは再び技術革新をリードし、オープンソースMT-MegatronLMとMT-TransformerEngineの2つの主要なAIフレームワークを発表しました。この主要な動きは、新しい活力を国内のコンピューティングインフラストラクチャに注入するだけでなく、世界中のAI開発者に強力なツールサポートを提供します。 FP8ハイブリッドトレーニング戦略と高性能オペレーターライブラリを深く統合することにより、これら2つのフレームワークは、国内のフル機能GPUのハイブリッド並列トレーニングと推論を達成し、大規模モデルトレーニングの効率と安定性を大幅に改善します。
MT-MegatronLMフレームワークは、フル機能GPU用に特別に設計されており、密度モデル、マルチモーダルモデル、MOE(ハイブリッドエキスパート)モデルの効率的なトレーニングをサポートし、AIフィールドでの現在の多様なトレーニングニーズを満たしています。 MT-TransformerEngineは、変圧器モデルのトレーニングと推論の最適化に焦点を当てています。オペレーターの融合と並列加速戦略およびその他のテクノロジーを通じて、ムーアスレッドの高密度コンピューティングの可能性を効果的に解放し、メモリバインドオペレーターの効率を大幅に改善します。

これら2つのフレームワークの技術的ブレークスルーは、主にハードウェアの適応とアルゴリズムの革新の深いコラボレーションに反映されています。まず、複数のタイプのモデルの混合並列トレーニングをサポートします。これは、さまざまなモデルアーキテクチャの複雑なコンピューティングシナリオを柔軟に扱うことができます。第二に、ムーアスレッドGPUによってネイティブにサポートされるFP8ハイブリッド精密トレーニング戦略と組み合わされて、トレーニング効率を効果的に改善します。第三に、高性能オペレーターライブラリMudnnと通信ライブラリMCCLの深い統合により、コンピューティング集約型タスクと複数のカードの通信オーバーヘッドが体系的に最適化されています。同時に、オープンソースSimumaxライブラリと組み合わせて、並列戦略検索を自動的に実行でき、さまざまなモデルと加速環境で並列トレーニングパフォーマンスを最大化できます。さらに、フレームワークの組み込みの巻き戻し例外メカニズムは、トレーニングのために最近の安定したノードに自動的にロールバックし、大規模なトレーニングの安定性を大幅に改善できます。最後に、2つのフレームワークは主流のGPUエコシステムと互換性があり、既存のエコシステムのスムーズな移行を保証するだけでなく、開発者が独自のAIテクノロジースタックを構築するための根本的なサポートも提供します。

実際のアプリケーションでは、これら2つのフレームワークのパフォーマンスが印象的です。フル機能GPUクラスターでは、LLAMA38Bモデルのトレーニングタスクは、損失がほとんどロスレスである場合、FP8テクノロジーで90%以上に達する可能性があります。これは、元のトレーニング速度よりも28%高くなります。さらに、ムーアスレッドは深く統合され、オープンソースが深く統合されており、DeepSeek Parallel Algorithm DualPipeを効率的にサポートしています。 MT-DualPipeがMT-MegatronフレームワークとMT-FormerEngineフレームワークに完全に接続された後、MLA、MTP、およびさまざまな専門家バランス戦略をサポートするDeepSeek V3トレーニングプロセスの完全な複製を実現しました。さまざまな変圧器オペレーターの融合技術を通じて、これらのフレームワークはメモリ帯域幅の使用率を大幅に改善し、メモリバインドされたボトルネックを効果的に緩和し、さらに国内GPUのハードウェアの可能性を解放しました。
ムーアスレッドは、これらの2つのフレームワークを最適化し続けると述べ、一連の新しい機能を導入する計画です。バブルレートをさらに削減し、並列トレーニング効率を改善するためのデュアルパイプ/ゼロバブル並列戦略を含む。トレーニングのパフォーマンスと安定性を改善するためのさまざまなオリジナルのFP8最適化戦略。トレーニング中の障害の許容と効率を改善するための非同期チェックポイント戦略。コンピューティングとメモリオーバーヘッドを削減し、トレーニング速度を向上させるための最適化された再計算戦略。トレーニング中のフォールトトレランスを強化するためのオリジナルのフォールトトレーニングトレーニングアルゴリズム。 Moore Thread FlashmlaとDeepGEMMライブラリを統合して、MOOREスレッドGPUのコンピューティングパワーとFP8コンピューティングパワーをさらにリリースして、コンピューティングのパフォーマンスと効率を包括的に改善します。
この一連の技術的ブレークスルーとオープンソースの測定値は、AIコンピューティングパワーの分野でのムーアスレッドの強さを実証するだけでなく、国内のAIインフラストラクチャの開発のための新しい可能性を開きます。待って、AIモデルトレーニングの分野でさらにブレークスルーを見てみましょう。