Ali Qwen2-72B возглавляет список HELM: производительность превосходит Llama3-70B

Автор：Eve Cole Время обновления：2025-02-23 23:00:03

Недавно Стэнфордский университет опубликовал последние результаты списка оценки больших моделей HELM MMLU, который привлек широкое внимание в отрасли. Благодаря строгим стандартам оценки и прозрачному процессу оценки этот список представляет собой надежный справочник для оценки производительности больших моделей. Результаты списка показывают, что модель Tongyi Qianwen Qwen2-72B от Alibaba выделяется среди многих моделей и достигла впечатляющих результатов, демонстрируя значительный прогресс в технологии больших моделей Китая.

Недавно большой список оценки моделей HELM MMLU Стэнфордского университета опубликовал последние результаты. Перси Лян, директор Исследовательского центра базовых моделей Стэнфордского университета, опубликовал статью, в которой отметил, что модель Tongyi Qianwen Qwen2-72B от Alibaba превзошла Llama3-70B в рейтингах и стала самой эффективной большой моделью с открытым исходным кодом. MMLU (массовое многозадачное понимание языка) — один из самых влиятельных тестов для оценки больших моделей в отрасли. Он охватывает 57 задач, включая базовую математику, информатику, право, историю и т. д., и предназначен для проверки мировых знаний и способностей к решению проблем в больших моделях. Однако при реальной оценке результаты различных моделей часто лишены последовательности и сопоставимости. Это происходит главным образом из-за использования нестандартной технологии подсказок и неспособности единообразно принять системы оценки с открытым исходным кодом.

QQ截图20240620111950.png

HELM (Целостная система оценки моделей фундамента), предложенная Центром исследований моделей фундамента (CRFM) Стэнфордского университета, стремится создать прозрачный и воспроизводимый метод оценки. Структура HELM стандартизирует и делает прозрачными результаты оценки различных моделей MMLU, решая проблемы, существующие в существующих оценках MMLU. Например, используйте одни и те же слова-подсказки для всех участвующих моделей и предоставьте моделям одни и те же 5 примеров по каждой теме теста для ситуационного обучения. Перси Лян, директор Центра фундаментальных модельных исследований Стэнфордского университета, недавно опубликовал на социальных платформах последний список HELM MMLU. В списке показано, что модель Qwen2-72B с открытым исходным кодом Alibaba Tongyi Qianwen занимает пятое место, уступая только Claude3Opus, GPT-4o, Gemini1.5pro и GPT-4. Это крупная модель с открытым исходным кодом, имеющая самый высокий рейтинг, а также имеющая лучшую производительность. китайской большой модели. Серия Tongyi Qianwen Qwen2 была открыта в начале июня 2024 года и содержит 5 моделей разных размеров для предварительного обучения и инструкций по точной настройке. На сегодняшний день модели серии Qwen были загружены более 16 миллионов раз, что свидетельствует об их широком признании и высокой производительности в отрасли. Последние результаты оценки HELM MMLU не только демонстрируют выдающиеся характеристики Qwen2-72B в многозадачном понимании языка, но и отмечают рост крупных моделей Китая в глобальной конкуренции технологий искусственного интеллекта. Благодаря постоянному развитию технологий мы с нетерпением ждем возможности увидеть в будущем еще больше выдающихся больших моделей из Китая на международной арене.

Выдающиеся характеристики Qwen2-72B не только отражают сильные технические возможности Alibaba в области искусственного интеллекта, но и придают мощный импульс развитию крупных моделей в Китае. Я верю, что в будущем больше китайских крупных моделей покажут свою выдающуюся силу на международной арене.