最近、SemiAnalysis は、AMD の新世代 AI チップ MI300X のソフトウェアに重大な欠陥があり、その性能が完全に発揮されず、AI チップ市場における Nvidia の優位性に効果的に対抗できないとするレポートを発表しました。このレポートは、5か月にわたる詳細な調査に基づいて、ソフトウェアエコシステム構築におけるAMDの欠点を明らかにし、AMDの将来の発展に対する推奨事項を示しています。
最近、技術分析機関のセミアナリシスは5か月の調査報告書を発表し、AMDの最新のMI300X AIチップには重大なソフトウェア問題があり、本来の性能を発揮できず、したがってAIチップ市場で競争できないことが明らかになりました。 . Nvidiaの優位性に挑戦します。

報告書では、AMDのソフトウェアには多数の脆弱性が存在し、AIモデルのトレーニングがほぼ不可能となり、ユーザーはデバッグに多くの時間を費やす必要があると指摘した。一方、Nvidia は新機能、ライブラリ、パフォーマンスのアップデートを展開し続けており、両者の差はさらに広がります。アナリストはGEMMベンチマークや単一ノードトレーニングを含む広範なテストを実施し、その結果、AMDがいわゆる「CUDAの堀」、つまりソフトウェアにおけるNvidiaの強い優位性を克服できていないことが示された。
ハードウェア仕様の観点から見ると、MI300X のパフォーマンス データは非常に注目に値します。FP16 の計算能力は 1307TeraFLOPS に達し、192GB HBM3 メモリが搭載されています。比較すると、Nvidia の H100 は 989 TeraFLOPS と 80GB のメモリを備えていますが、Nvidia の最新の H200 はメモリの点でその差を縮めており、141GB 構成を提供しています。 AMD システムは、価格が低く、イーサネット ネットワークがより手頃な価格であるため、総所有コストの点で利点があることは言及する価値があります。
ただし、これらのハードウェアの利点は、実際の使用では望ましい結果をもたらしません。 SemiAnalysis はこの現象を「カメラをピクセル数だけで比較する」と表現しており、AMD が数字の勝負に迷い込んで現実世界で十分なパフォーマンスを提供できていないことを示唆しています。有用なベンチマーク結果を得るために、アナリストは AMD エンジニアと直接協力して複数のソフトウェアの脆弱性を解決する必要がありましたが、Nvidia のシステムは追加の調整なしですぐに使用できる状態でした。
このレポートでは、AMD最大のGPUクラウドサービスプロバイダーであるTensorwaveが、ソフトウェアの問題解決を支援するために、自社で購入したGPUをAMDチームに無料で提供しなければならなかったとも述べられている。この目的を達成するために、SemiAnalysis は、AMD CEO の Su Zifeng がソフトウェア開発とテストへの投資を増やす必要がある、特に自動テスト用に多数の MI300X チップを割り当て、複雑な環境変数を簡素化し、工場でのエクスペリエンスを向上させるためにデフォルト設定を改善する必要があると示唆しました。
セミアナリシス社は、AMDがNvidiaの強力な競争相手になることを期待しているが、「残念ながら、やるべきことはまだたくさんある」とも述べた。ソフトウェアの大幅な改善がなければ、特にNvidiaが次世代Blackwellチップの発売を準備していることから、AMDはさらに遅れをとるリスクがあるが、Nvidiaの次世代製品の発売は順風満帆ではないとの報道もある。
ハイライト:
AMD MI300X AI チップは深刻なソフトウェア問題に直面しており、AI モデルのトレーニングが困難になっています。
Nvidia は、強力な CUDA プラットフォームと頻繁なソフトウェア アップデートにより、市場での優位性を拡大し続けています。
SemiAnalysis は、AMD が競争力を高めるためにソフトウェア開発への投資を増やし、ユーザー エクスペリエンスを向上させることを推奨しています。
全体として、このレポートは、AMD の MI300X チップが直面するソフトウェア上の大きな課題と、AMD が改善する必要がある方向性を明確に指摘しています。ソフトウェアの「堀」を乗り越えられるかどうかが、今後のAIチップ市場競争におけるAMDの成否を直接決定することになるだろう。