Ali Qwen2-72B en tête de liste HELM : les performances dépassent Llama3-70B

Auteur：Eve Cole Date de mise à jour：2025-02-23 23:00:03

Récemment, l'Université de Stanford a publié les derniers résultats de la liste d'évaluation des grands modèles HELM MMLU, qui ont attiré une large attention dans l'industrie. Avec ses normes d'évaluation strictes et son processus d'évaluation transparent, cette liste constitue une référence fiable pour l'évaluation des performances des grands modèles. Les résultats de la liste montrent que le modèle Tongyi Qianwen Qwen2-72B d'Alibaba se démarque parmi de nombreux modèles et a obtenu des résultats impressionnants, démontrant les progrès significatifs de la technologie chinoise des grands modèles.

Récemment, la liste d'évaluation des grands modèles de l'Université de Stanford, HELM MMLU, a publié les derniers résultats. Percy Liang, directeur du Basic Model Research Center de l'Université de Stanford, a publié un article soulignant que le modèle Tongyi Qianwen Qwen2-72B d'Alibaba a dépassé le Llama3-70B dans le classement et est devenu le grand modèle open source le plus performant. MMLU (Massive Multitask Language Understanding) est l'un des critères d'évaluation de grands modèles les plus influents du secteur. Il couvre 57 tâches, dont les mathématiques de base, l'informatique, le droit, l'histoire, etc., et est conçu pour tester les connaissances du monde et les capacités de résolution de problèmes dans de grands modèles. Cependant, dans l'évaluation réelle, les résultats des différents modèles manquent souvent de cohérence et de comparabilité. Cela est principalement dû à l'utilisation d'une technologie de mots d'invite non standard et à l'incapacité d'adopter uniformément des cadres d'évaluation open source.

QQ截图20240620111950.png

HELM (Un cadre holistique pour l'évaluation des modèles de fondation) proposé par le Centre de recherche sur les modèles de fondation (CRFM) de l'Université de Stanford s'engage à créer une méthode d'évaluation transparente et reproductible. Le cadre HELM standardise et rend transparents les résultats d'évaluation de différents modèles sur MMLU, résolvant les problèmes existants dans les évaluations MMLU existantes. Par exemple, utilisez les mêmes mots d'invite pour tous les modèles participants et fournissez aux modèles les mêmes 5 exemples sur chaque sujet de test pour l'apprentissage situationnel. Percy Liang, directeur du Fundamental Model Research Center de l'Université de Stanford, a récemment publié la dernière liste HELM MMLU sur les plateformes sociales. La liste montre que le modèle open source Tongyi Qianwen d'Alibaba, Qwen2-72B, se classe cinquième, juste derrière Claude3Opus, GPT-4o, Gemini1.5pro et GPT-4. Il s'agit du grand modèle open source le mieux classé et présente également les meilleures performances. de grand modèle chinois. La série Tongyi Qianwen Qwen2 a été open source début juin 2024 et contient 5 modèles de pré-formation et de réglage fin de l'instruction de différentes tailles. Jusqu'à présent, les modèles de la série Qwen ont été téléchargés plus de 16 millions de fois, démontrant leur large reconnaissance et leurs puissantes performances dans l'industrie. Les derniers résultats d'évaluation de HELM MMLU démontrent non seulement les performances exceptionnelles du Qwen2-72B en matière de compréhension multitâche du langage, mais marquent également la montée en puissance des grands modèles chinois dans la compétition mondiale en matière de technologie d'IA. Avec les progrès continus de la technologie, nous sommes impatients de voir davantage de grands modèles chinois exceptionnels se présenter sur la scène internationale à l’avenir.

Les performances exceptionnelles du Qwen2-72B reflètent non seulement la forte force technique d’Alibaba dans le domaine de l’IA, mais donnent également une forte impulsion au développement de grands modèles en Chine. Je crois qu'à l'avenir, davantage de grands modèles chinois montreront leur force exceptionnelle sur la scène internationale.