2024年高考,九款AI大模型参与了史无前例的挑战——参加高考,特别是难度极高的河南卷。这场由媒体组织的测试,旨在评估AI在学术领域的实际能力,并为我们理解AI与人类智能的差异提供宝贵数据。此次测试结果令人瞩目,部分AI模型的成绩甚至超过了一本线,引发了广泛关注和热议,也为AI技术未来的发展方向提供了新的思考。
在参与测试的9个AI中,有4个AI的成绩超过了河南高考的一本线。GPT-4o以562分的高分夺得第一名,超过了一本线41分,而字节跳动的豆包以542.5分紧随其后,成为国内模型中的佼佼者。

AI在文科科目中表现出色,尤其是在语文和英语科目上,而在理科科目,尤其是数学上,表现则不尽如人意。可以看到AI在语言类科目上展现出了明显的优势,古诗文理解能力令人印象深刻。

在简单推理题上AI表现尚可,但在需要复杂推导和证明的题目上则表现不佳,显示出逻辑能力有待提高。在文综中,地理科目表现最差,而在理综中,生物科目表现相对较好。GPT-4o在政治科目上以91.5分的高分表现突出。
测试方式与评分标准
测试轮次:为了减少随机性的影响,所有科目进行了两轮测试,并取平均分作为最终成绩。
输入格式:公式采用Markdown/LaTeX格式输入,图像问题根据模型的识别能力输入相应的图片和文字。
测试操作:由专业的AI数据服务商进行统一规范的测试截图,确保了测试的公正性。
判分方式:与人类考生采用统一的评分标准,确保了评分的公平性。
这次AI参加高考的尝试,不仅展示了AI在特定领域的优势,也暴露了在逻辑推理和数学证明方面的不足。正如一位AI考生在作文中所引用的:“路漫漫其修远兮,吾将上下而求索。”这不仅是AI发展的写照,也是对人类不断探索未知世界的生动描述。通过这次测试,我们对AI的智力水平有了更深入的了解,也为AI未来的发展方向提供了宝贵的参考。
考生名单包括了来自OpenAI的GPT-4o、字节跳动的豆包、百度的文心4.0等知名AI产品,它们在这次高考中的表现,无疑将对AI技术的发展产生深远的影响。
此次AI高考实验,为我们提供了对人工智能发展现状和未来方向的深刻洞察,也凸显了在追求通用人工智能道路上仍面临的挑战。相信未来,AI会在更多领域展现其潜力,为人类社会带来更大的进步。