最近、人工知能の分野での大きなブレークスルーが案内されました。Moonshotは、コンピューティング効率を従来のAdamwの2倍に増加させる革新的なテクノロジーであるMuonのオープンソースを発表しました。このニュースのリリースは、Deepseekの今後の複数のコードライブラリのオープンソースと一致しており、業界での広範な注目と激しい議論を引き起こしました。
Muon Optimizerは、もともと2024年にOpenaiの研究者Keller Jordanなどによって提案され、小規模なモデルトレーニングでうまく機能しました。ただし、モデルサイズが拡大すると、元のMuonはパフォーマンスの改善でボトルネックに遭遇しました。この問題を解決するために、Dark Sideチームは、主に重量減衰と一貫した根平均四角(RMS)アップデートの追加を含め、ハイパーパラメーター調整を必要とせずに大規模トレーニングでMuonの適用をサポートすることを含めて、詳細な技術的改善を行いました。
新しいMuon Optimizerは、3B/16Bパラメーターを備えたハイブリッドエキスパート(MOE)モデルである最新のムーンライトモデルに適用されています。 5.7兆個のトークントレーニングの後、月光モデルのパフォーマンスは大幅に改善され、現在の「パレートフロンティア」になりました。この結果は、ムーンライトモデルが同じトレーニング予算の下ですべてのパフォーマンスメトリックの他のモデルを上回ることを意味します。
Dark Side of Moonはまた、Muonの実装コードを調達し、対応するプリトレーニングおよび中間チェックポイントをリリースし、研究者のその後の研究に貴重なリソースを提供しました。調査によると、Muon Optimizerはトレーニング中にADAMWのフロップの52%しか必要とされていないため、大規模な言語モデルトレーニングの効率をさらに検証しています。
月のダークサイドのMuonオプティマイザーは、パフォーマンスにおける従来のオプティマイザーを上回るだけでなく、オープンソースを介してAIフィールド全体の開発に新しい活力を注入します。ますます多くの研究者と開発者が参加すると、このオプティマイザーは人工知能技術のさらなる進歩を促進することが期待されています。
紙の住所:https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf