OpenAI的最新模型o3在ARC-AGI基準測試中取得了令人矚目的成績,其標準計算條件下的得分高達75.7%,高計算版本更是達到了87.5%。這一結果遠超過此前所有模型,引發了AI研究領域的廣泛關注。 ARC-AGI基準測試旨在評估AI系統適應新任務和展現流體智力的能力,其難度極高,被認為是AI評估中最具挑戰性的標準之一。 o3的突破性表現,無疑為AI發展帶來了新的方向和可能性,但也並非意味著AGI已被破解。
OpenAI 發布的最新模型o3在ARC-AGI 基準測試中取得了驚人的成績,標準計算條件下得分高達75.7%,而高計算版本更是達到了87.5%。這項成就令AI 研究界感到意外,但仍無法證明人工智慧通用性(AGI)已被破解。
ARC-AGI 基準測試基於抽象推理庫(Abstract Reasoning Corpus),該測試旨在評估AI 系統適應新任務和展示流動智力的能力。 ARC 包含一系列視覺謎題,需要理解基本概念如物體、邊界和空間關係。人類能夠輕鬆解決這些謎題,而目前的AI 系統在這方面卻面臨很大挑戰。 ARC 被認為是AI 評估中最具挑戰性的標準之一。

o3的表現顯著優於以往的模型。 o1-preview 和o1模型在ARC-AGI 上的最高得分為32%。在此之前,研究人員Jeremy Berman 採用混合方法將Claude3.5Sonnet 與遺傳演算法結合,取得了53% 的分數,而o3的出現則被視為AI 能力的飛躍。
ARC 的創建者François Chollet 稱讚o3在AI 能力上的質變,認為其在新任務適應能力上達到了前所未有的水平。
儘管o3的表現出色,但其計算成本也相當高。在低運算配置下,解決每個難題的費用在17到20美元之間,需消耗3300萬個代幣;而在高計算配置下,計算成本則增加至172倍,使用數十億個令牌。然而,隨著推理成本的逐步降低,這些開銷可能會變得更加合理。

關於o3如何達到這項突破,目前尚無詳細的資訊。有科學家猜測,o3可能使用了一種程式合成方法,結合鍊式思維和搜尋機制。而另一些科學家則認為,o3可能只是透過進一步擴展強化學習而來。

儘管o3在ARC-AGI 上取得了重大進展,但Chollet 強調,ARC-AGI 並不是AGI 的測試,o3仍未達到AGI 的標準。它在某些簡單任務上依然表現不佳,顯示出與人類智慧之間的根本差異。此外,o3在推理過程中仍依賴外在驗證,這與AGI 的獨立學習能力相去甚遠。
Chollet 團隊正在開發新的挑戰性基準,以檢驗o3的能力,預計將其得分降低到30% 以下。他指出,真正的AGI 將意味著創造出對普通人來說簡單但對AI 來說困難的任務幾乎變得不可能。
劃重點:
o3在ARC-AGI 基準測試中獲得75.7% 的高分,表現超越以往模型。
o3解決每個謎題的成本高達17到20美元,計算量龐大。
儘管o3表現優秀,但專家強調其尚未達到AGI 的標準。
總而言之,o3模型在ARC-AGI測試中的優異表現,展示了人工智慧在抽象推理能力上的顯著進步,但這只是邁向真正AGI道路上的一小步。未來研究仍需持續探索,以解決計算成本高及AGI的核心問題。