На вступительных экзаменах в колледж 2024 года девять крупных моделей ИИ приняли участие в беспрецедентной сдаче вступительных экзаменов в колледж, особенно чрезвычайно сложного экзамена в провинции Хэнань. Этот тест, организованный средствами массовой информации, направлен на оценку реальных возможностей ИИ в академической сфере и предоставление ценных данных для нашего понимания различий между ИИ и человеческим интеллектом. Результаты этого теста привлекательны. Результаты некоторых моделей ИИ даже превзошли результаты первой линии, что вызвало широкое внимание и бурное обсуждение, а также позволило по-новому взглянуть на будущее направление развития технологий ИИ.
Среди девяти ИИ, участвовавших в тесте, баллы четырех ИИ превысили первую строчку вступительного экзамена в колледж провинции Хэнань. GPT-4o занял первое место с высоким результатом в 562 балла, превзойдя первую строчку на 41 балл, а Doubao от ByteDance вплотную приблизился к нему с результатом 542,5 балла, став лучшим среди отечественных моделей.

ИИ хорошо работает по гуманитарным предметам, особенно по китайскому и английскому предметам, но не так хорошо по естественным наукам, особенно по математике. Видно, что ИИ продемонстрировал очевидные преимущества в языковых предметах, а его способность понимать древнюю поэзию впечатляет.

Производительность ИИ по простым логическим вопросам приемлема, но его производительность по вопросам, требующим сложного вывода и доказательства, оставляет желать лучшего, что указывает на необходимость улучшения его логических способностей. В комплексе гуманитарных наук худшие результаты показал предмет по географии, тогда как в комплексе по естественным наукам предмет биологии показал относительно хорошие результаты. GPT-4o показал отличные результаты в политической теме, набрав 91,5 балла.
Методы испытаний и стандарты оценки
Тестовые раунды: Чтобы уменьшить влияние случайности, все испытуемые были протестированы в течение двух раундов, а средний балл принимался за окончательный.
Формат ввода: формулы вводятся в формате Markdown/LaTeX. Для вопросов с изображениями вводятся соответствующие изображения и текст в соответствии с возможностями распознавания модели.
Тестовая операция: профессиональный поставщик услуг обработки данных искусственного интеллекта проводит унифицированные и стандартизированные тестовые снимки экрана, чтобы обеспечить справедливость теста.
Метод подсчета баллов. Для кандидатов-людей используются одни и те же стандарты подсчета баллов, чтобы обеспечить справедливость подсчета баллов.
Эта попытка ИИ принять участие во вступительных экзаменах в колледж не только демонстрирует преимущества ИИ в конкретных областях, но и обнажает его недостатки в логических рассуждениях и математических доказательствах. Как процитировал один кандидат в области ИИ в своем эссе: «Дорога длинная и длинная, и я буду искать вверх и вниз». Это не только изображение развития ИИ, но и яркое описание непрерывного исследования человечества. неизведанный мир. Благодаря этому тесту мы получили более глубокое понимание уровня интеллекта ИИ, а также предоставили ценные рекомендации для будущего направления развития ИИ.
В список кандидатов входят такие известные продукты искусственного интеллекта, как GPT-4o от OpenAI, Doubao от ByteDance и Wenxin 4.0 от Baidu. Их результаты на вступительных экзаменах в колледж, несомненно, окажут глубокое влияние на развитие технологий искусственного интеллекта.
Этот эксперимент по вступительным экзаменам в колледж по искусственному интеллекту дает нам глубокое представление о текущем состоянии и будущем направлении развития искусственного интеллекта, а также подчеркивает проблемы, с которыми мы все еще сталкиваемся в поисках общего искусственного интеллекта. Я верю, что в будущем ИИ продемонстрирует свой потенциал в большем количестве областей и принесет больший прогресс человеческому обществу.