2024年高考,九款AI大模型參與了史無前例的挑戰-參加高考,特別是難度極高的河南卷。這場由媒體組織的測試,旨在評估AI在學術領域的實際能力,並為我們理解AI與人類智慧的差異提供寶貴數據。這次測試結果令人矚目,部分AI模型的成績甚至超過了一條線,引發了廣泛關注和熱議,也為AI技術未來的發展方向提供了新的思考。
在參與測驗的9個AI中,有4個AI的成績超過了河南高考的一本線。 GPT-4o以562分的高分奪得第一名,超過了一本線41分,而字節跳動的豆包以542.5分緊隨其後,成為國內模型中的佼佼者。

AI在文科科目中表現出色,尤其是在語文和英文科目上,而在理科科目,尤其是數學上,表現則不盡如人意。可以看到AI在語言類科目上展現了明顯的優勢,古詩文理解能力令人印象深刻。

在簡單推理題上AI表現尚可,但在需要複雜推導和證明的題目上則表現不佳,顯示出邏輯能力有待提高。在文綜中,地理科目表現最差,而在理綜中,生物科目表現相對較好。 GPT-4o在政治科目上以91.5分的高分錶現突出。
測驗方式與評分標準
測試輪次:為了減少隨機性的影響,所有科目進行了兩輪測試,並取平均分數作為最終成績。
輸入格式:公式採用Markdown/LaTeX格式輸入,影像問題依模型的辨識能力輸入對應的圖片和文字。
測試操作:由專業的AI資料服務商進行統一規範的測試截圖,確保了測試的公正性。
判分方式:與人類考生採用統一的評分標準,確保了評分的公平性。
這次AI參加高考的嘗試,不僅展示了AI在特定領域的優勢,也揭露了在邏輯推理和數學證明上的不足。正如一位AI考生在作文中所引用的:「路漫漫其修遠兮,吾將上下而求索。」這不僅是AI發展的寫照,也是對人類不斷探索未知世界的生動描述。透過這次測試,我們對AI的智力水準有了更深入的了解,也為AI未來的發展方向提供了寶貴的參考。
考生名單包括了來自OpenAI的GPT-4o、字節跳動的豆包、百度的文心4.0等知名AI產品,它們在這次高考中的表現,無疑將對AI技術的發展產生深遠的影響。
這次AI高考實驗,為我們提供了對人工智慧發展現狀和未來方向的深刻洞察,也凸顯了在追求通用人工智慧道路上仍面臨的挑戰。相信未來,AI會在更多領域展現其潛力,為人類社會帶來更大的進步。