Elon Muskの人工知能会社Xaiは、今週の月曜日に最新の言語モデルGROK3をリリースしました。 Muskは、記者会見で、新しいモデルには、約200,000 GPUが装備されているメンフィスベースのデータセンターのおかげで、モデルに強力なコンピューティングパワーサポートを提供するおかげで、前任者のコンピューティングパワーの10倍があることを明らかにしました。
GROK3シリーズモデルは、速度を上げながら精度の一部を犠牲にする合理化されたバージョンを含む、さまざまなバリアントを発売しました。さらに、新しく起動した「推論」モデルは、数学的および科学的問題を解決するために特別に設計されており、ユーザーはGROKインターフェイスの「Think」および「Brain」設定を通じてこれらの機能を調整できます。 Xaiは、このバージョンはまだ確定しておらず、モデルはまだ継続的に訓練されており、チームは今後数週間でさらなる改善と最適化を行う予定です。
AIのベンチマークプラットフォームlmarena.aiによると、GROK3はチャットボットフィールドで1,400以上を獲得し、フィールドのリーダーになりました。 OpenAI、人類、Googleモデルの上位など、プログラミングなどのすべてのカテゴリに優れています。ただし、実際のパフォーマンスはベンチマークの結果とは異なる場合があります。たとえば、Claude3.5Sonnetはベンチマークのコーディングの一部のモデルよりも低いスコアがありますが、多くのユーザーは依然としてプログラミングタスクに適した選択肢だと考えています。
Openaiの創設者Andrej KarpathyはGROK3への早期アクセスを受け、モデルの論理的推論能力を高く評価しました。 Karpasiは、「Think」機能は、GPT-2トレーニングフロップの計算やボードゲーム用の六角形のメッシュの作成など、複雑なタスクを正常に処理できると述べました。さらに、この機能により、文字カウントや小数の比較など、基本的な数学操作の精度が向上します。
新しい検索機能の観点から、Karpasiは、Deepsearchの品質はPerplexityの研究ツールに匹敵し、今後のApple ProductsやPalantir Stock Dynamicsなどのトピックに関連する回答を提供すると述べました。しかし、彼はいくつかの明らかな問題を発見しました。モデルは偽のURLを生成し、サポートされていないステートメントを作成し、特定のプロンプトでXの投稿のみを引用します。
さらに、GROK3には、その存在についての認識が不足しているようで、主要なAIラボのXaiの位置を逃しています。これらの制限により、DeepSearchはまだOpenaiの「深い研究」の品質レベルにあり、ユーモアや倫理的な問題についてパフォーマンスを低下させています。それにもかかわらず、GROK3の発売は、人工知能の分野におけるXaiの強力な強さと革新の能力を依然として示しています。