人工知能技術の急速な発展に伴い、DeepSeekチームは新しいDeepSeek-V3/R1推論システムを開始しました。このシステムは、より高いスループットとより低いレイテンシを介して、一般的な人工知能(AGI)の効率的な開発を促進することを目的としています。これを達成するために、DeepSeekは専門家の並列性(EP)テクノロジーを採用し、GPUコンピューティングの効率を大幅に改善し、レイテンシを減らしながらバッチ処理を拡大します。
DeepSeek-V3/R1のコアは非常に高いスパース性であり、モデルの各層で256人の専門家のうち8人だけがアクティブになっているため、各専門家に十分な処理能力があることを確認するために非常に大きなバッチサイズが必要です。このシステムのアーキテクチャは、Prefill-Decodeの分解法を採用し、PrefillおよびDecoding段階でさまざまな程度の並列化戦略を採用しています。
事前に充填段階で、システムはダブルバッチオーバーラップ戦略を介して通信コストを隠します。つまり、リクエストの1つのバッチを処理すると、別のバッチの通信コストが計算プロセスによってマスクされ、それにより全体的なスループットが改善されます。デコード段階では、異なる実行段階での時間の不均衡に応じて、DeepSeekは5レベルのパイプライン方法を採用して、シームレスなコミュニケーションとコンピューティングの重複を実現します。
大規模な並列性によって引き起こされる負荷の不平等に対処するために、DeepSeekチームは複数のロードバランサーを設定しました。これらのロードバランサーは、すべてのGPUでコンピューティングと通信の負荷のバランスをとり、過負荷操作によりパフォーマンスボトルネックになる単一のGPUを回避し、リソースの効率的な利用を確保することに取り組んでいます。
サービスのパフォーマンスの観点から、DeepSeek-V3/R1推論サービスは、トレーニングプロセスと一致するマトリックスの乗算と伝送形式を使用して、H800GPUで実行されます。最新の統計によると、このシステムは過去24時間で6,800億の入力トークンを処理し、最高のノード占有率は278、平均1日の占有率は226.75であり、サービス全体のパフォーマンスは良好です。
効率的なアーキテクチャ設計とインテリジェントな負荷管理により、DeepSeek-V3/R1推論システムは、人工知能モデルの推論パフォーマンスを改善するだけでなく、将来のAGIの研究とアプリケーションに強力なインフラストラクチャサポートを提供します。
プロジェクト:https://github.com/deepseek-ai/open-infra-index/blob/main/202502550255025502550255025502550250250250250250250250250250250250250250250250250250250250250250202020more_thing_thing_deepseekv3r1_inference_system_overview.md
キーポイント:
DeepSeek-V3/R1推論システムは、クロスノードのエキスパート並列テクノロジーを通じて、より高いスループットとより低いレイテンシを実現します。
デュアルバッチオーバーラップ戦略と5レベルのパイプラインが採用され、コンピューティング効率を改善し、通信プロセスを最適化します。
さまざまなロードバランサーをセットアップして、GPU間でリソースを効率的に利用し、パフォーマンスボトルネックを避けます。