最近、ANT GroupのLingチームは、「すべてのフロップは重要です。高度なGPUなしで3,000億パラメーターハイブリッドエキスパートLingモデルをスケーリングする」というタイトルのプリプリントArxivプラットフォームに説得力のある技術論文をリリースしました。このペーパーでは、開発した2つの新しい大手言語モデルの詳細:Ling-LiteとLing-Plus。 2つのモデルは、低パフォーマンスのハードウェアで効率的にトレーニングできるいくつかの革新的な技術で設計されており、コストを大幅に削減します。
軽量版の救済のパラメータースケールは168億で、そのうちアクティベーションパラメーターは27億5,000万人です。拡張ドックモデルには、最大2,900億パラメーターと288億のアクティベーションパラメーターがあります。両方のモデルのパフォーマンスは、業界をリードするレベル、特に拡張バージョンに達します。 3,000億個のパラメーターMOEモデルは、国内GPUを使用して低性能デバイスでトレーニングされた場合、ハイエンドNVIDIAチップモデルのモデルに匹敵するものです。

通常、MOEモデルのトレーニングには、NVIDIAのH100やH800などの高価な高性能GPUに依存する必要があります。これは、高価であるだけでなく、リソース制限環境でのアプリケーションに影響を与えるチップ不足によって制限されます。この目的のために、Ant Group Lingチームは、モデルを拡張してリソースと予算の制限を突破するために「高度なGPUを使用していない」という真新しい目標を提案しました。革新的なトレーニング戦略には、動的なパラメーター割り当て、混合精度のスケジューリング、アップグレードされたトレーニング例外処理メカニズムが含まれます。これらの戦略は、割り込み応答時間を効果的に短縮し、モデル評価プロセスを最適化し、検証サイクルを50%以上圧縮します。
実験中、Lingチームは9兆トークンでLing-Plus Pre-Trainingを実施しました。結果は、高性能ハードウェア構成を使用した1兆トークンのトレーニングのコストは約635万元であることを示していますが、ANTの最適化方法を使用した後、低スペックのハードウェアのトレーニングコストは約508万元に削減され、20%近く節約されました。同時に、パフォーマンスはAlibaba Tongyi QWen2.5-72B-InstructおよびDeepSeek-V2.5-1210-chatに匹敵します。
この技術的成果を広く使用できる場合、国内の大型モデルにより費用対効果の高いソリューションを提供し、Nvidiaチップへの依存を減らし、人工知能の将来の開発のための新しいパスを開きます。