BytedanceのDoubao Mockupチームは最近、主要な技術的ブレークスルーを発表し、ハイブリッドエキスパートモデル(MOE)アーキテクチャの重要なボトルネックを克服し、Cometと呼ばれる最適化技術をオープンソースに克服しました。このテクノロジーは、大規模なモデルのトレーニング効率を大幅に向上させるだけでなく、トレーニングコストを大幅に削減し、大規模なモデルの分野に新しい開発の機会をもたらします。
Comet Technologyのコアは、効率的な最適化機能にあり、大規模なモデルのトレーニング効率を1.7倍に増やし、トレーニングコストを40%削減できます。この画期的な結果は、バイテダンスのワンカクラスタートレーニングに実際に適用されており、数百万のGPU時間のトレーニングコンピューティングパワーを合計で節約し、実際のシナリオでの強力なパフォーマンスを実証しています。
DeepSeekによって供給されているDualPipeなどのMOE最適化ソリューションと比較して、Comet Technologyはより強力な互換性と利便性を持っています。プラグインのような既存のMOEトレーニングフレームワークに直接接続でき、トレーニングフレームワークを侵襲的に変更することなく、業界の主流の大きなモデルをサポートできます。このシームレスな統合機能により、Cometは技術的なアプリケーションでより柔軟で効率的になります。
技術データによると、彗星の導入後、単一のMOE層が1.96倍の加速を達成し、エンドツーエンドの平均効率が1.71倍増加することが示されています。さらに、Cometは、さまざまな並列戦略、入力スケール、ハードウェア環境で安定した性能を示しており、その幅広い適用性を示しています。さらに注目に値するのは、CometがDeepSeekのDualPipeソリューションと組み合わせて使用できることです。これは、モデルトレーニングコストをさらに圧縮することが期待されています。
このテクノロジーのオープンソースは、間違いなく大きなモデルの分野に新しいブレークスルーをもたらし、大きなモデルの研究開発と応用を加速することが期待されています。トレーニングコストを削減し、効率を改善することにより、Comet Technologyは、人工知能技術のさらなる開発を促進するために、より多くの企業や研究機関にサポートを提供します。
紙の住所:https://arxiv.org/pdf/2502.19811
オープンソースアドレス:https://github.com/bytedance/flux?continueflag=c1d74dd2912ab3909a1a27fe4f5cf519