Недавно Стэнфордский университет опубликовал последние результаты списка оценки больших моделей HELM MMLU, который привлек широкое внимание в отрасли. Благодаря строгим стандартам оценки и прозрачному процессу оценки этот список представляет собой надежный справочник для оценки производительности больших моделей. Результаты списка показывают, что модель Tongyi Qianwen Qwen2-72B от Alibaba выделяется среди многих моделей и достигла впечатляющих результатов, демонстрируя значительный прогресс в технологии больших моделей Китая.
Недавно большой список оценки моделей HELM MMLU Стэнфордского университета опубликовал последние результаты. Перси Лян, директор Исследовательского центра базовых моделей Стэнфордского университета, опубликовал статью, в которой отметил, что модель Tongyi Qianwen Qwen2-72B от Alibaba превзошла Llama3-70B в рейтингах и стала самой эффективной большой моделью с открытым исходным кодом. MMLU (массовое многозадачное понимание языка) — один из самых влиятельных тестов для оценки больших моделей в отрасли. Он охватывает 57 задач, включая базовую математику, информатику, право, историю и т. д., и предназначен для проверки мировых знаний и способностей к решению проблем в больших моделях. Однако при реальной оценке результаты различных моделей часто лишены последовательности и сопоставимости. Это происходит главным образом из-за использования нестандартной технологии подсказок и неспособности единообразно принять системы оценки с открытым исходным кодом.

Выдающиеся характеристики Qwen2-72B не только отражают сильные технические возможности Alibaba в области искусственного интеллекта, но и придают мощный импульс развитию крупных моделей в Китае. Я верю, что в будущем больше китайских крупных моделей покажут свою выдающуюся силу на международной арене.