xAI 新模型Grok 3 邏輯推理能力獲OpenAI 創始人點贊- AI文章

作者：Eve Cole 更新時間：2025-05-28 04:50:01

埃隆・馬斯克的人工智能公司xAI 本週一發布了其最新的語言模型Grok3，這一發布標誌著該公司在人工智能領域取得了重要進展。馬斯克在發布會上透露，新模型的計算能力是其前身的十倍，這得益於位於孟菲斯的數據中心，該中心配備了約20萬塊GPU，為模型提供了強大的算力支持。

Grok3系列模型推出了多種變體，其中包括一個精簡版，該版本在提高速度的同時犧牲了部分準確性。此外，新推出的“推理”模型專門設計用於解決數學和科學問題，用戶可以通過Grok 界面中的“思考”和“大腦”設置來調整這些功能。 xAI 表示，這一版本尚未最終定型，模型仍在持續訓練中，團隊計劃在未來幾週內進行進一步的改進和優化。

根據AI 基準測試平台lmarena.ai 的數據，Grok3在聊天機器人領域的得分超過了1400，成為該領域的領先者。它在編程等所有類別中均表現出色，超越了OpenAI、Anthropic 和谷歌的模型。然而，實際性能可能與基準結果有所不同。例如，儘管Claude3.5Sonnet 在編碼基準測試中的得分低於某些模型，但許多用戶仍認為它是編程任務的更優選擇。

OpenAI 創始人安德烈・卡爾帕西（Andrej Karpathy）獲得了Grok3的早期訪問權，他對該模型的邏輯推理能力給予了高度評價。卡爾帕西表示，“思考”功能能夠成功處理複雜任務，比如計算GPT-2的訓練flops 或為棋盤遊戲創建六邊形網格，這些能力在之前僅限於OpenAI 的高端模型o1-pro。此外，該功能還提高了基本數學操作的準確性，比如字母計數和比較小數。

在新搜索功能方面，卡爾帕西指出，DeepSearch 的質量與Perplexity 的研究工具相當，可以提供關於即將發布的蘋果產品和Palantir 股票動態等主題的相關答案。然而，他也發現了一些明顯的問題：模型有時會生成虛假的網址，做出不支持的聲明，並且僅在特定提示下引用X 的帖子。

此外，Grok3似乎還對自己的存在缺乏意識，遺漏了xAI 在主要AI 實驗室中的位置。這些局限性使DeepSearch 尚未達到OpenAI “深度研究” 的質量水平，並且在幽默和倫理問題上表現不佳。儘管如此，Grok3的發布仍然展示了xAI 在人工智能領域的強大實力和創新能力。