Modèle général chinois Superclue de référence complète
【Langya bang】-arène spéciale du grand modèle chinois, les principaux modèles qui vous intéressent sont tous ici
"Évaluation de référence chinoise Big Model Rapport d'avril 2024"
La dernière liste des références d'évaluation des grands modèles chinois Superclue (mai 2024)
Adresse officielle du site Web: www.cluebenchmarks.com/superlue.html
Rapport technique: Superclue: une référence complète du modèle de grande langue chinoise
[2023-12-27] "Rapport d'évaluation des références chinoises Big Model 2023 Rapport annuel" publié
【2023-12-28】 Sortir la liste Superclue-décembre 2023
【2023-10-19】 Superclue-Agent: agent chinois natif d'évaluation des tâches Benchmark
【2023-9-12】 Superclue-SETTENIE: Chinois Big Model Multi-Round Confrontation Safety Benchmark
[2023-9-26], Superclue a publié la liste de septembre des modèles chinois.
Superclue est un benchmark complet d'évaluation des grandes modèles.
Par rapport au mois dernier, le corps intelligent de l'agent d'IA a été ajouté



Les agents de l'IA sont actuellement des points chauds de recherche de pointe liés à de grands modèles de langage. Cependant, pour les agents de l'IA, une évaluation approfondie des grands modèles chinois fait défaut. Pour résoudre ce problème, nous avons ajouté une nouvelle évaluation des capacités des agents de l'IA à la nouvelle liste de Superclue. Cette liste se concentrera sur l'évaluation des performances des agents de l'IA dans deux capacités clés, [l'utilisation des outils] et la [planification des tâches].
| Classement | Modèle | mécanisme | Points totaux | Problème d'ouverture de plusieurs rounds ouverts | Trois questions objectives sur la capacité d'opt | utiliser |
|---|---|---|---|---|---|---|
| - | Gpt4-turbo | Openai | 90,63 | 90.89 | 90.03 | API |
| - | GPT4 (page Web) | Openai | 83.92 | 80.76 | 91.28 | page web |
| - | GPT4 (API) | Openai | 79.84 | 76.24 | 88.24 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 79.02 | 75.00 | 88.38 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 76,54 | 71.78 | 87,64 | API |
| ? | Andesgpt | Oppo | 75.04 | 70.01 | 86.76 | API |
| 4 | Sagesse et mots clairs | Tsinghua et sagesse | 74.11 | 69.91 | 83.92 | page web |
| 5 | Moonshot (Kimichat) | Le côté obscur de la lune | 71,92 | 67.25 | 82.81 | page web |
| - | Wen Xin Yiyan 4.0 (page Web) | Baidu | 70.28 | 62.59 | 88.22 | page web |
| 6 | QWEN-72B | Alibaba | 69.69 | 62.31 | 86.90 | API |
| 7 | Séquence singe | Sortir et demander | 68,98 | 61.01 | 87,59 | API |
| 8 | YI-34B-CHAT | Zéro dix mille choses | 68.46 | 61.99 | 83,56 | Modèle |
| 9 | Pci-transgpt | Technologie Jiadu | 68.33 | 60,41 | 86.81 | API |
| 9 | 360gpt_pro | 360 | 68.32 | 61.36 | 84.56 | API |
| - | Claude2 | Anthropique | 67.43 | 65.14 | 72.77 | API |
| 11 | Skylark Big Model (bean bun) | Bytedance | 66.35 | 58,53 | 84.60 | page web |
| - | Gemini-pro | 65.29 | 59.33 | 79.20 | API | |
| - | GPT3.5-turbo | Openai | 61.44 | 55.63 | 74.98 | API |
| 12 | QWEN-14B | Alibaba | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13b-chat | Baichuan intelligent | 61.12 | 54.45 | 76.67 | Modèle |
| 14 | Xverse-13b-2-chat | Technologie Yuanxiang | 60,46 | 53,00 | 77.87 | Modèle |
| 15 | Iflytek Spark v3.0 | iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | Minimax (comme pour les questions) | Technologie xiyu | 58,91 | 50h00 | 79.69 | page web |
| 17 | Chatglm3-6b | Tsinghua et sagesse | 49.50 | 42.30 | 66.31 | Modèle |
| 18 | Chinois-alpaca-2-13b | Yiming Cui | 45.36 | 38.91 | 60,40 | Modèle |
| - | Llama_2_13b_chat | Méta | 37.36 | 34.91 | 43.09 | Modèle |
Remarque: Si les scores au premier plan sont relativement proches (moins de 0,03 points), ils seront marqués comme un nom à plusieurs niveaux lors du classement.
| Classement | Modèle | mécanisme | Problème d'ouverture de plusieurs rounds ouverts | Langue et connaissance | Professionnel et compétences | Utilisation de l'outil | Sécurité traditionnelle | utiliser |
|---|---|---|---|---|---|---|---|---|
| - | Gpt4-turbo | Openai | 90.89 | 90.21 | 97.00 | 100,00 | 62.75 | API |
| - | GPT4 (page Web) | Openai | 80.76 | 79.49 | 82.87 | 94.63 | 64.71 | page web |
| - | GPT4 (API) | Openai | 76.24 | 73.96 | 81.15 | 93.34 | 53,92 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 75.00 | 69.54 | 79.62 | 80,92 | 68.00 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 71.78 | 71,58 | 73.40 | 76.32 | 52.94 | API |
| ? | Andesgpt | Oppo | 70.01 | 72.23 | 68.80 | 70.71 | 55,88 | API |
| 4 | Sagesse et mots clairs | Tsinghua et sagesse | 69.91 | 66.98 | 68,63 | 83,78 | 65.31 | page web |
| 5 | Moonshot (Kimichat) | Le côté obscur de la lune | 67.25 | 69.72 | 72.57 | 62.19 | 43.14 | page web |
| - | Claude2 | Anthropique | 65.14 | 55,28 | 73.27 | 65.13 | 83,00 | API |
| - | Wen Xin Yiyan 4.0 (page Web) | Baidu | 62.59 | 65.05 | 63.26 | 47.37 | 64.00 | page web |
| 6 | QWEN-72B | Alibaba | 62.31 | 59.43 | 65,59 | 60,67 | 52.00 | API |
| 7 | YI-34B-CHAT | Zéro dix mille choses | 61.99 | 63.90 | 54,55 | 71.05 | 65.31 | Modèle |
| 8 | 360gpt_pro | 360 | 61.36 | 62.09 | 58,70 | 69.33 | 60,00 | API |
| 9 | Séquence singe | Sortir et demander | 61.01 | 65.81 | 59,99 | 56,58 | 45.10 | API |
| 10 | Pci-transgpt | Technologie Jiadu | 60,41 | 60,39 | 61,56 | 64.66 | 50,98 | API |
| - | Gemini-pro | 59.33 | 60,50 | 61.43 | 46,53 | 62.50 | API | |
| 11 | Skylark Big Model (bean bun) | Bytedance | 58,53 | 57,75 | 56.42 | 55.26 | 67,65 | page web |
| - | GPT3.5-turbo | Openai | 55.63 | 55.30 | 56.24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13b-chat | Baichuan intelligent | 54.45 | 57,35 | 48,69 | 56,58 | 54.90 | Modèle |
| 13 | Xverse-13b-2-chat | Technologie Yuanxiang | 53,00 | 54.63 | 45,82 | 63.33 | 57,84 | Modèle |
| 14 | QWEN-14B | Alibaba | 52.04 | 54.29 | 48.38 | 45.33 | 56.86 | API |
| 15 | Iflytek Spark v3.0 | iflytek | 51.74 | 57.40 | 48.41 | 44,00 | 43.14 | API |
| 16 | Minimax (comme pour les questions) | Technologie xiyu | 50h00 | 53,54 | 45.05 | 40.13 | 50h00 | page web |
| 17 | Chatglm3-6b | Tsinghua et sagesse | 42.30 | 46.67 | 36.15 | 34.25 | 53,92 | Modèle |
| 18 | Chinois-alpaca-2-13b | Yiming Cui | 38.91 | 46.46 | 29.35 | 27.63 | 46.94 | Modèle |
| - | Llama_2_13b_chat | Méta | 34.91 | 36,55 | 30.21 | 32.67 | 53,92 | Modèle |
| Classement | Modèle | mécanisme | Score d'opt | Capacités de base | Caractéristiques chinoises | Compétence académique et professionnelle | utiliser |
|---|---|---|---|---|---|---|---|
| - | GPT4 (page Web) | Openai | 91.28 | 97,62 | 82.38 | 93.85 | page web |
| - | Gpt4-turbo | Openai | 90.03 | 96.99 | 79.16 | 93.93 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 88.38 | 91,65 | 86.18 | 87.32 | API |
| - | GPT4 (API) | Openai | 88.24 | 92.92 | 81.84 | 89,95 | API |
| - | Wen Xin Yiyan 4.0 (page Web) | Baidu | 88.22 | 76.48 | 78.32 | 57.05 | page web |
| ? | Tongyi Qianwen 2.0 | Alibaba | 87,64 | 78,65 | 81.28 | 63.48 | API |
| ? | Séquence singe | Sortir et demander | 87,59 | 91.46 | 80.28 | 90,57 | API |
| 4 | QWEN-72B | Alibaba | 86.90 | 92.21 | 76,65 | 91.05 | API |
| 5 | Pci-transgpt | Technologie Jiadu | 86.81 | 90,76 | 80.88 | 88.42 | API |
| 6 | Andesgpt | Oppo | 86.76 | 92.55 | 76.17 | 90.81 | API |
| 7 | Skylark Big Model (bean bun) | Bytedance | 84.60 | 88,75 | 70.89 | 93.06 | page web |
| 8 | 360gpt_pro | 360 | 84.56 | 91.70 | 73.32 | 87,93 | API |
| 9 | Sagesse et mots clairs | Tsinghua et sagesse | 83.92 | 89.14 | 73.10 | 88,72 | page web |
| 10 | YI-34B-CHAT | Zéro dix mille choses | 83,56 | 86.90 | 72.81 | 90.12 | Modèle |
| 11 | QWEN-14B | Alibaba | 82.81 | 91.14 | 68.67 | 87.31 | API |
| 12 | Moonshot (Kimichat) | Le côté obscur de la lune | 82.81 | 87.77 | 73.39 | 86.41 | page web |
| 13 | Minimax (comme pour les questions) | Technologie xiyu | 79.69 | 86,52 | 66.18 | 85.18 | page web |
| - | Gemini-pro | 79.20 | 83,72 | 70,78 | 82.51 | API | |
| 14 | Xverse-13b-2-chat | Technologie Yuanxiang | 77.87 | 84.46 | 62.96 | 83,85 | Modèle |
| 15 | Iflytek Spark v3.0 | iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13b-chat | Baichuan intelligent | 76.67 | 80.61 | 63.79 | 84.50 | Modèle |
| - | GPT3.5-turbo | Openai | 74.98 | 83,78 | 62.83 | 77,60 | API |
| - | Claude2 | Anthropique | 72.77 | 82.13 | 65.83 | 70.10 | API |
| 17 | Chatglm3-6b | Tsinghua et sagesse | 66.31 | 72.63 | 54.05 | 71.38 | Modèle |
| 18 | Chinois-alpaca-2-13b | Yiming Cui | 60,40 | 70.39 | 47.75 | 62.31 | Modèle |
| - | Llama_2_13b_chat | Méta | 43.09 | 50.41 | 37.22 | 41.48 | Modèle |
| Modèle | calculer | Raisonnement logique | Code | Encyclopédie des connaissances | Compréhension du langage | Générer une création | dialogue | jeu de rôle | Utilisation de l'outil | Sécurité traditionnelle |
|---|---|---|---|---|---|---|---|---|---|---|
| Gpt4-turbo | 97.24 | 97,59 | 96.18 | 89,62 | 87.82 | 89,93 | 89.22 | 94.46 | 100,00 | 62.75 |
| GPT4 (page Web) | 81.16 | 85,62 | 81.84 | 79.17 | 81.91 | 78.91 | 78.38 | 79.09 | 94.63 | 64.71 |
| Wen Xin Yiyan 4.0 (API) | 77.84 | 87.84 | 73.19 | 98,63 | 71.93 | 66.36 | 57.03 | 53,77 | 80,92 | 68.00 |
| GPT4 (API) | 77,60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75.78 | 70.17 | 93.34 | 53,92 |
| Claude2 | 70.10 | 80.14 | 69.57 | 62.33 | 72.32 | 39.81 | 54,76 | 47.17 | 65.13 | 83,00 |
| Tongyi Qianwen 2.0 | 70.10 | 73.29 | 76.81 | 93.15 | 71.93 | 62.73 | 68.75 | 61.32 | 76.32 | 52.94 |
| Sagesse et mots clairs | 69.07 | 77.40 | 59.42 | 89,73 | 64.91 | 61.11 | 57.81 | 61.32 | 83,78 | 65.31 |
| QWEN-72B | 68,56 | 68.06 | 60.14 | 95.89 | 63.16 | 42.59 | 48.44 | 47.06 | 60,67 | 52.00 |
| Moonshot (Kimichat) | 68,54 | 79.65 | 69.52 | 100,00 | 66.78 | 59.65 | 61.33 | 60,84 | 62.19 | 43.14 |
| Andesgpt | 62.59 | 72.26 | 71,55 | 88.36 | 74.82 | 64.23 | 68,56 | 65.19 | 70.71 | 55,88 |
| GPT3.5-turbo | 60,31 | 54.05 | 54.35 | 60.27 | 59,82 | 55.45 | 50h00 | 50.96 | 55.26 | 52.00 |
| 360gpt_pro | 56.43 | 64.97 | 54.70 | 93.84 | 62.79 | 55,73 | 55,75 | 42.32 | 69.33 | 60,00 |
| Gemini-pro | 56.32 | 58,45 | 69.53 | 73.91 | 61.61 | 54.63 | 52,54 | 59.80 | 46,53 | 62.50 |
| Séquence singe | 55,38 | 67.12 | 57,48 | 92.47 | 58.77 | 57.81 | 56.75 | 63.27 | 56,58 | 45.10 |
| Skylark Big Model (bean bun) | 54.69 | 68,92 | 45.65 | 86.99 | 56.14 | 48.18 | 53.12 | 44.34 | 55.26 | 67,65 |
| YI-34B-CHAT | 50h00 | 64.38 | 49.28 | 88.36 | 65.18 | 62.73 | 58,87 | 44.34 | 71.05 | 65.31 |
| Pci-transgpt | 49,99 | 72.19 | 62.49 | 82.88 | 60,45 | 57.18 | 54,76 | 46.69 | 64.66 | 50,98 |
| QWEN-14B | 49.48 | 56,85 | 38.81 | 76.71 | 61.40 | 45.45 | 43,75 | 44.12 | 45.33 | 56.86 |
| Wen Xin Yiyan 4.0 (page Web) | 48.45 | 79.73 | 61,59 | 97.26 | 65,79 | 60,91 | 53.17 | 48.11 | 47.37 | 64.00 |
| Xverse-13b-2-chat | 43.30 | 50,68 | 43.48 | 72.92 | 57.02 | 47.27 | 46.88 | 49.06 | 63.33 | 57,84 |
| Minimax (comme pour les questions) | 43.30 | 61.43 | 30.43 | 100,00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50h00 |
| Baichuan2-13b-chat | 40,62 | 66.22 | 39.23 | 78.77 | 53,51 | 52,78 | 55.47 | 46.23 | 56,58 | 54.90 |
| Iflytek Spark v3.0 | 38,54 | 57.43 | 49.26 | 83,57 | 62.28 | 47.17 | 46.83 | 47.17 | 44,00 | 43.14 |
| Chatglm3-6b | 34,74 | 41.10 | 32.61 | 56,94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53,92 |
| Llama_2_13b_chat | 24.74 | 40,54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53,92 |
| Chinois-alpaca-2-13b | 22.40 | 45.21 | 20.45 | 51.37 | 51,75 | 39.09 | 47,66 | 42.45 | 27.63 | 46.94 |
| Classement | Modèle | mécanisme | Points totaux | OUVRIR Plusieurs cycles de problèmes d'ouverture | OPTER Trois questions objectives sur les capacités |
|---|---|---|---|---|---|
| ? ️ | QWEN-72B | Alibaba | 69.69 | 62.31 | 86.90 |
| ? | YI-34B-CHAT | Zéro dix mille choses | 68.46 | 61.99 | 83,56 |
| ? | QWEN-14B | Alibaba | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13b-chat | Baichuan intelligent | 61.12 | 54.45 | 76.67 |
| 5 | Xverse-13b-2-chat | Technologie Yuanxiang | 60,46 | 53,00 | 77.87 |
| 6 | Chatglm3-6b | Tsinghua et sagesse | 49.50 | 42.30 | 66.31 |
| 7 | Chinois-alpaca-2-13b | Yiming Cui | 45.36 | 38.91 | 60,40 |
| - | Llama_2_13b_chat | Méta | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
Il s'agit d'une capacité linguistique qui peut comprendre et analyser la signification des informations de texte d'entrée. Le modèle doit être en mesure d'identifier le sens des phrases, des phrases et des paragraphes, tout en étant en mesure d'extraire des informations clés et des sujets de plus grands blocs de texte.

Remarque: Dans cet exemple, plusieurs cycles de capacités de dialogue peuvent être évalués simultanément.
Les agents de l'IA sont actuellement des points chauds de recherche de pointe liés à de grands modèles de langage.
Concentrez-vous sur l'évaluation des performances des agents de l'IA en deux capacités clés: [utilisation des outils] et [planification des tâches]

Il s'agit d'une capacité linguistique qui nécessite la compréhension et la rappel des informations conversationnelles précédentes afin de maintenir la cohérence dans les réponses. Cela implique de comprendre le processus global et le contexte de la conversation ou de générer des conversations correspondantes.

Il s'agit d'une capacité linguistique qui peut créer de nouveaux contenus textuels, tels que des articles, une rédaction, des histoires courtes et de la poésie. Cela implique l'utilisation créative de la langue, tout en tenant compte du style, du contexte et des lecteurs cibles.

Il s'agit d'une capacité de connaissance qui peut fournir des informations sur les connaissances comme une encyclopédie. Cela implique de comprendre et de répondre aux questions sur un large éventail de sujets, ainsi que de fournir des informations précises, détaillées et à jour.

Il s'agit d'une capacité professionnelle à comprendre et à générer du code de programmation. Cela implique de comprendre la syntaxe, la structure et les habitudes de plusieurs langages de programmation, et comment résoudre des problèmes de programmation.

Remarque: Dans cet exemple, plusieurs cycles de capacités de dialogue peuvent être évalués simultanément.
Il s'agit d'une capacité professionnelle à comprendre et à appliquer des principes logiques à la raison. Cela implique l'analyse des problèmes, l'identification des problèmes et le raisonnement.

Il s'agit d'une capacité professionnelle qui lui permet d'effectuer des opérations mathématiques telles que l'addition, la soustraction, la multiplication et la division, et des problèmes mathématiques encore plus complexes. Cela implique de comprendre l'expression des problèmes mathématiques et comment les résoudre étape par étape.

Remarque: Dans cet exemple, plusieurs cycles de capacités de dialogue peuvent être évalués simultanément.
Il s'agit d'une capacité perceptuelle qui lui permet de jouer un rôle dans un environnement ou un scénario simulé spécifique. Cela implique de comprendre le comportement d'un caractère particulier, d'un style de parole et de réponses appropriées dans une situation particulière.

Il s'agit d'une capacité de sécurité pour empêcher la génération de contenu qui peut causer des problèmes ou des dommages. Cela implique d'identifier et d'éviter les demandes qui peuvent contenir du contenu sensible ou inapproprié, ainsi que le conformité des politiques de confidentialité et de sécurité de l'utilisateur.

La liste sera mise à jour régulièrement et davantage de modèles chinois disponibles seront inclus. Les individus et les institutions intéressés par l'évaluation des grands modèles sont les bienvenus pour contacter et communiquer.
