Downcodes小編帶你了解OpenAI最新研究成果:MLE-bench基準測試!這項研究旨在評估AI智能體在機器學習工程領域的實際能力。研究團隊選擇了75個Kaggle機器學習競賽作為測試場景,涵蓋模型訓練、資料準備和實驗運行等多個方面,並以Kaggle公開排行榜資料作為人類基準進行比較。透過測試多種前沿語言模型,研究團隊獲得了寶貴的經驗,並開源了基準測試程式碼,為後續研究提供了便利。
在近期的一項研究中,OpenAI研究團隊推出了名為MLE-bench 的全新基準測試,旨在評估AI智能體在機器學習工程的表現。
這項研究特別關注75個來自Kaggle 的機器學習工程相關競賽,旨在測試代理在現實世界中所需的多種技能,包括模型訓練、資料集準備和實驗運行等。

為了更好地進行評估,研究團隊使用了Kaggle 公開排行榜的基礎數據,確立了每個競賽的人類基準。在實驗中,他們利用開源的智能體架構,對幾種前沿語言模型進行了測試。結果顯示,最佳表現的配置——OpenAI 的o1-preview 與AIDE 架構結合使用—— 在16.9% 的競賽中,達到了Kaggle 銅牌的水平。
不僅如此,研究團隊也對AI 智能體的資源擴展形式進行了深入探討,並研究了預訓練對結果的污染影響。他們強調,這些研究結果為未來進一步理解AI 智能體在機器學習工程方面的能力提供了基礎。為了促進未來的研究,團隊還將基準測試的程式碼進行了開源,供其他研究人員使用。
這項研究的推出,標誌著機器學習領域的重要進展,特別是在如何評估和提升AI 智能體的工程能力方面。科學家們希望,透過MLE-bench,可以為AI 技術的發展提供更科學的評估標準和實務依據。
專案入口:https://openai.com/index/mle-bench/
劃重點:
MLE-bench 是一個新的基準測試,旨在評估AI 代理的機器學習工程能力。
研究涵蓋75個Kaggle 競賽,測試智能體的模型訓練和資料處理能力。
? OpenAI 的o1-preview 與AIDE 架構組合在16.9% 的競賽中達到了Kaggle 銅牌水準。
MLE-bench 基準測試的開源,為AI智能體在機器學習工程領域的評估提供了新的標準,也為推動AI技術發展貢獻了力量。 Downcodes小編期待未來更多基於MLE-bench的研究成果!