9家AI挑戰2024高考最難河南卷豆包拿下國內第一

作者：Eve Cole 更新時間：2025-02-25 22:50:01

2024年高考，九款AI大模型參與了史無前例的挑戰－參加高考，特別是難度極高的河南卷。這場由媒體組織的測試，旨在評估AI在學術領域的實際能力，並為我們理解AI與人類智慧的差異提供寶貴數據。這次測試結果令人矚目，部分AI模型的成績甚至超過了一條線，引發了廣泛關注和熱議，也為AI技術未來的發展方向提供了新的思考。

在參與測驗的9個AI中，有4個AI的成績超過了河南高考的一本線。 GPT-4o以562分的高分奪得第一名，超過了一本線41分，而字節跳動的豆包以542.5分緊隨其後，成為國內模型中的佼佼者。

AI在文科科目中表現出色，尤其是在語文和英文科目上，而在理科科目，尤其是數學上，表現則不盡如人意。可以看到AI在語言類科目上展現了明顯的優勢，古詩文理解能力令人印象深刻。

机器人参加考试机器人高考

在簡單推理題上AI表現尚可，但在需要複雜推導和證明的題目上則表現不佳，顯示出邏輯能力有待提高。在文綜中，地理科目表現最差，而在理綜中，生物科目表現相對較好。 GPT-4o在政治科目上以91.5分的高分錶現突出。

測驗方式與評分標準

測試輪次:為了減少隨機性的影響，所有科目進行了兩輪測試，並取平均分數作為最終成績。

輸入格式:公式採用Markdown/LaTeX格式輸入，影像問題依模型的辨識能力輸入對應的圖片和文字。

測試操作:由專業的AI資料服務商進行統一規範的測試截圖，確保了測試的公正性。

判分方式:與人類考生採用統一的評分標準，確保了評分的公平性。

這次AI參加高考的嘗試，不僅展示了AI在特定領域的優勢，也揭露了在邏輯推理和數學證明上的不足。正如一位AI考生在作文中所引用的:「路漫漫其修遠兮，吾將上下而求索。」這不僅是AI發展的寫照，也是對人類不斷探索未知世界的生動描述。透過這次測試，我們對AI的智力水準有了更深入的了解，也為AI未來的發展方向提供了寶貴的參考。

考生名單包括了來自OpenAI的GPT-4o、字節跳動的豆包、百度的文心4.0等知名AI產品，它們在這次高考中的表現，無疑將對AI技術的發展產生深遠的影響。

這次AI高考實驗，為我們提供了對人工智慧發展現狀和未來方向的深刻洞察，也凸顯了在追求通用人工智慧道路上仍面臨的挑戰。相信未來，AI會在更多領域展現其潛力，為人類社會帶來更大的進步。