Отчет о технической оценке показывает: Модель Claude 3.5 Sonnet достигла профессионального докторского уровня.

Автор：Eve Cole Время обновления：2025-02-24 23:00:02

Крупномасштабная языковая модель Claude 3.5 Sonnet, разработанная Anthropic, показала очень хорошие результаты в недавних тестах. Она набрала поразительный результат в 67,2% в тесте на научные вопросы для выпускников (GPQA), впервые преодолев отметку в 65%. и даже превосходит профессионального среднего доктора философии. Этот прорыв знаменует собой то, что большие языковые модели достигли новой вехи в понимании передовых научных знаний и реагировании на них, а также открывают неограниченные возможности для будущего применения искусственного интеллекта в различных областях. Далее будут подробно объяснены выдающиеся характеристики Claude 3.5 Sonnet и стоящие за ним технологические прорывы.

Последняя модель Anthropic, Claude 3.5 Sonnet, продемонстрировала впечатляющие характеристики в недавних технических обзорах, превзойдя даже профессиональные уровни докторов наук. В тесте «Ответы на вопросы для выпускников» (GPQA) Claude3.5Sonnet набрал 67,2%. Это не только первый раз, когда большая языковая модель превысила 65% в такой оценке, но и знаменует ее прогресс в понимании. и ответы на вопросы передовой науки. Проблемы знаний достигли новых высот.

GPQA — это эталонный тест, который измеряет способность языковых моделей отвечать на научные вопросы на уровне выпускников. Он охватывает ряд сложных и эзотерических вопросов и предъявляет высокие требования к возможностям модели в области рассуждений и интеграции знаний. В этом сложном тесте средний балл для обладателей общей докторской степени составляет около 34%, а средний балл для обладателей докторской степени в специализированных областях — 65%. Стоит отметить, что языковая модель с показателем GPQA 60% имеет уровень интеллекта, примерно эквивалентный IQ150.

Хотя в настоящее время нет конкретных данных по GPT-4o и GPT-4T в оценке GPQA, на основе доступной информации предполагается, что Claude3.5Sonnet, похоже, работает лучше, чем эти две модели. В других связанных оценках, таких как оценка CoT с нулевым выстрелом, Claude3.5Sonnet также набрал более высокие баллы, чем GPT-4o (53,6%) и GPT-4T (48,0%), что еще раз доказывает его лидерство в понимании языка и статусе ответа на вопросы.

Это достижение Anthropic не только демонстрирует мощные возможности Claude3.5Sonnet, но и устанавливает новый стандарт для больших языковых моделей в решении сложных задач, связанных с вопросами и ответами. Благодаря постоянному развитию технологий потенциал применения этих моделей в различных областях, несомненно, в будущем будет шире.

Прорывные результаты Claude 3.5 Sonnet указывают на то, что большие языковые модели будут играть все более важную роль в области научных исследований и приобретения знаний. В будущем мы будем ожидать новых подобных прорывов, которые будут способствовать постоянному развитию технологий искусственного интеллекта. принести пользу человеческому обществу.