Шанхайская лаборатория искусственного интеллекта недавно провела уникальный «Вступительный экзамен в колледж». Семь моделей искусственного интеллекта, включая GPT-4o, прошли комплексные тесты по китайскому языку, математике и английскому языку с использованием нового национального стандарта учебной программы I и ручной оценки. справедливость и беспристрастность испытания. Целью этого теста является оценка способности модели ИИ справляться с вопросами вступительных экзаменов в колледж и предоставление справочных данных для будущего развития технологий ИИ. Модели, участвующие в тесте, охватывают многие известные учреждения в стране и за рубежом, демонстрируя различные направления и уровни текущего развития технологий искусственного интеллекта.
В мире искусственного интеллекта вступительные экзамены в колледж больше не являются просто этапом для людей. Недавно Шанхайская лаборатория искусственного интеллекта провела уникальный «Вступительный экзамен в колледж», чтобы мы могли убедиться в академической силе ИИ. Они внедрили систему оценки OpenCompass и подвергли семь моделей искусственного интеллекта, включая GPT-4o, комплексным тестам на знание китайского языка, математики и английского языка.

В этом тесте использовался документ I нового национального стандарта учебной программы, который гарантировал, что все участвующие модели с открытым исходным кодом были открытыми до вступительных экзаменов в колледж, что обеспечивало справедливость теста. Более того, эти «ответы» на основе искусственного интеллекта оцениваются вручную преподавателями, имеющими опыт выставления оценок на вступительных экзаменах в колледжи, стремясь приблизиться к реальным стандартам оценок.
Модели, участвующие в оценке, имеют разный опыт, в том числе диалоговую модель Mixtral8x22B с открытым исходным кодом от французского стартапа в области искусственного интеллекта Mistral, Yi-1.5-34B от Zero One Thousand Things Company, GLM-4-9B от Zhipu AI и InternLM2 от Шанхайская лаборатория искусственного интеллекта -20B-WQX и серия Qwen2 от Alibaba. GPT-4o участвует в оценке как модель с закрытым исходным кодом и предназначена только для справки.

Были объявлены результаты. Qwen2-72B занял первое место с общим баллом 303, за ним следует GPT-4o с 296 баллами, а InternLM2-20B-WQX занял третье место с 295,5 балла. Эти модели показали хорошие результаты по китайскому и английскому предметам, со средним баллом 67% по китайскому и 81% по английскому языку. Однако по предмету математика средний балл всех моделей составляет всего 36%, что показывает, что у ИИ еще есть много возможностей для совершенствования математических рассуждений.
Преподаватель-оценщик провел комплексный анализ листа ответов модели ИИ. По китайским предметам модели в целом хорошо читают и понимают современные тексты, но им немного не хватает классического китайского и композиции. С точки зрения математики, хотя модели обладают сильными возможностями памяти формул, им все еще не хватает гибкого применения в процессе решения проблем. Общая успеваемость по английскому предмету хорошая, но по определенным типам вопросов некоторые модели имеют более низкие показатели баллов.
Этот «большой образцовый вступительный экзамен в колледж» не только позволяет нам увидеть потенциал ИИ в академической сфере, но и выявляет их ограничения в понимании и применении знаний. Поскольку технологии продолжают развиваться, у нас есть основания полагать, что ИИ в будущем станет умнее и лучше будет служить человеческому обществу.
Благодаря этому «вступительному экзамену в колледж» по искусственному интеллекту мы можем ясно увидеть прогресс и недостатки технологии искусственного интеллекта, которая дает ценный опыт для будущего развития искусственного интеллекта и новую перспективу для нашего понимания искусственного интеллекта. Считается, что в ближайшем будущем ИИ продемонстрирует более мощные возможности в большем количестве областей.