첫 번째 AI 대학 입시 평가 결과 공개, GPT-4o가 2위를 차지

저자：Eve Cole 업데이트 시간：2025-02-23 21:50:02

상하이 인공 지능 연구소는 최근 독특한 "대학 입학 시험"을 실시했습니다. GPT-4o를 포함한 7개의 AI 모델은 국가의 새로운 커리큘럼 표준 I 논문과 수동 채점 방식을 사용하여 중국어, 수학 및 영어로 포괄적인 테스트를 거쳤습니다. 시험의 공정성과 공평성. 이번 테스트는 AI 모델의 대학 입시 문제 처리 능력을 평가하고, 향후 AI 기술 발전을 위한 참고자료를 제공하는 것을 목표로 한다. 테스트에 참여하는 모델은 국내외 유명 기관을 대상으로 하며 현재 AI 기술 개발의 다양한 방향과 수준을 보여줍니다.

인공지능의 세계에서 대학 입시는 더 이상 인간만의 무대가 아니다. 최근 상하이 인공지능 연구소에서는 AI의 학문적 강점을 보여주기 위해 독특한 '대학 입학 시험'을 사용했습니다. 그들은 OpenCompass 평가 시스템을 채택하고 GPT-4o를 포함한 7개의 AI 모델에 대해 중국어, 수학, 영어의 포괄적인 숙련도 테스트를 거쳤습니다.

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

이번 테스트에서는 새로운 국가 교육과정 표준인 Paper I을 사용했는데, 이는 참여하는 모든 오픈소스 모델이 대학 입시 이전에 오픈 소스화되도록 하여 테스트의 공정성을 보장했습니다. 또한 이러한 AI '답안지'는 대학 입시 채점 경험이 있는 교사가 직접 심사해 실제 채점 기준에 가까워지도록 노력하고 있다.

평가에 참여하는 모델은 프랑스 AI 스타트업 Mistral의 오픈 소스 Mixtral8x22B 대화 모델, Zero One Thousand Things Company의 Yi-1.5-34B, Zhipu AI의 GLM-4-9B, InternLM2 등 다양한 배경을 가지고 있습니다. 상하이 인공 지능 연구소 -20B-WQX 및 Alibaba의 Qwen2 시리즈. GPT-4o는 비공개 소스 모델로 평가에 참여하며 참고용으로만 사용됩니다.

결과는 Qwen2-72B가 총점 303점으로 1위에 올랐고, GPT-4o가 296점으로 뒤를 이었고, InternLM2-20B-WQX가 295.5점으로 3위를 차지했습니다. 이 모델은 중국어와 영어 과목에서 좋은 성적을 거두었으며, 중국어에서는 평균 67%, 영어에서는 81%의 점수를 받았습니다. 그러나 수학 과목에서는 전체 모델의 평균 득점률이 36%에 불과해 수학적 추론에서 AI가 아직 개선의 여지가 많다는 것을 보여준다.

채점교사는 AI 모델의 답안지를 종합적으로 분석했다. 중국어 과목의 경우, 모델은 일반적으로 현대 텍스트를 읽고 이해하는 데 능숙하지만, 고전 중국어와 작문에서는 약간 부족합니다. 수학적인 측면에서 모델은 강력한 수식 기억 기능을 갖추고 있지만 문제 해결 과정에서 유연한 적용이 여전히 부족합니다. 영어 과목의 전반적인 성적은 좋지만 특정 문제 유형에서는 일부 모델의 득점률이 낮습니다.

이번 '빅모델 대학 입시'는 학문 분야에서 AI의 잠재력을 확인할 수 있을 뿐만 아니라, 지식을 이해하고 적용하는 데 있어서 AI의 한계도 드러낸다. 기술이 계속해서 발전함에 따라 우리는 미래의 AI가 더욱 똑똑해지고 인간 사회에 더 나은 서비스를 제공할 것이라고 믿을 이유가 있습니다.

이번 AI '대학 입시'를 통해 우리는 AI 기술의 발전과 단점을 명확히 확인할 수 있으며, 이는 미래 AI 발전을 위한 귀중한 경험과 인공지능에 대한 우리의 이해를 위한 새로운 관점을 제공한다. 머지않아 AI는 더 많은 분야에서 더욱 강력한 역량을 선보일 것으로 예상된다.