2024년 대학 입시에는 대형 AI 모델 9명이 참가해 전례 없는 대학 입시, 특히 극도로 어려운 허난성 시험에 도전했다. 언론이 주최하는 이번 테스트는 학문 분야에서 AI의 실제 역량을 평가하고, AI와 인간 지능의 차이를 이해하는 데 귀중한 데이터를 제공하는 것을 목표로 합니다. 이번 테스트 결과는 눈길을 끈다. 일부 AI 모델의 결과는 1차 결과를 뛰어넘어 폭넓은 관심과 열띤 토론을 불러일으켰으며, AI 기술의 미래 발전 방향에 대한 새로운 생각을 제시했다.
테스트에 참여한 AI 9명 중 4명의 AI 점수가 허난대학 입시 1차선을 넘어섰다. GPT-4o는 562점이라는 높은 점수로 1위를 41점 차로 앞지르며 1위를 차지했고, 바이트댄스의 두바오(Doubao)가 542.5점으로 바짝 뒤쫓아 국내 모델 중 최고가 됐다.

AI는 인문학 과목, 특히 중국어와 영어 과목에서 좋은 성적을 거두지만, 과학 과목, 특히 수학에서는 성적이 좋지 않습니다. AI가 언어 과목에서 분명한 이점을 보여줬고, 고대 시를 이해하는 능력도 인상적이라는 것을 알 수 있다.

간단한 추론 질문에서는 AI의 성능이 괜찮지만, 복잡한 도출과 증명이 필요한 질문에서는 성능이 좋지 않아 논리적 능력을 향상시킬 필요가 있음을 보여줍니다. 인문종합에서는 지리과목이 가장 성적이 나빴고, 이학종합에서는 생물학과목이 상대적으로 좋은 성적을 냈다. GPT-4o는 정치 과목에서 91.5점이라는 높은 점수를 받아 뛰어난 성적을 거두었습니다.
테스트 방법 및 채점 기준
테스트 라운드: 무작위성의 영향을 줄이기 위해 모든 대상자를 2라운드로 테스트하고 평균 점수를 최종 점수로 사용했습니다.
입력 형식: 수식은 Markdown/LaTeX 형식으로 입력됩니다. 이미지 질문의 경우 모델의 인식 능력에 따라 해당 그림과 텍스트가 입력됩니다.
테스트 운영: 전문 AI 데이터 서비스 제공업체가 통합되고 표준화된 테스트 스크린샷을 실시하여 테스트의 공정성을 보장합니다.
채점 방법: 채점의 공정성을 보장하기 위해 인간 후보자에게도 동일한 채점 기준이 사용됩니다.
AI가 대학 입시에 참여하려는 이번 시도는 특정 분야에서 AI의 장점을 보여줄 뿐만 아니라, 논리적 추론과 수학적 증명에서도 AI의 단점을 드러낸다. 한 AI 후보가 자신의 에세이에서 인용한 것처럼 "길은 멀고도 멀다. 나는 위아래로 탐색할 것이다." 이는 AI의 발전 과정을 묘사할 뿐만 아니라 인간이 끊임없이 탐구하는 모습을 생생하게 묘사하고 있다. 미지의 세계. 이번 테스트를 통해 우리는 AI의 지능 수준에 대해 더 깊이 이해하게 되었으며, AI의 향후 발전 방향에 대한 귀중한 참고 자료도 제공하게 되었습니다.
후보자 목록에는 OpenAI의 GPT-4o, ByteDance의 Doubao, Baidu의 Wenxin 4.0 등 잘 알려진 AI 제품이 포함되어 있습니다. 이번 대학 입시에서의 성과는 의심할 여지 없이 AI 기술 발전에 지대한 영향을 미칠 것입니다.
이 AI 대학 입시 실험은 우리에게 인공지능 개발의 현재 상태와 미래 방향에 대한 심오한 통찰력을 제공하고, 일반 인공지능을 추구하는 데 있어 우리가 여전히 직면하고 있는 과제를 강조합니다. 앞으로는 AI가 더 많은 분야에서 잠재력을 발휘하고 인류사회에 더 큰 발전을 가져올 것이라고 믿습니다.