Téléchargement de SuperCLUE - Téléchargement du code source SuperCLUE

SuperCLUE

Autre code source

1.0.0

Télécharger

Superclue

Modèle général chinois Superclue de référence complète

【Langya bang】-arène spéciale du grand modèle chinois, les principaux modèles qui vous intéressent sont tous ici

"Évaluation de référence chinoise Big Model Rapport d'avril 2024"

La dernière liste des références d'évaluation des grands modèles chinois Superclue (mai 2024)

Adresse officielle du site Web: www.cluebenchmarks.com/superlue.html

Rapport technique: Superclue: une référence complète du modèle de grande langue chinoise

[2023-12-27] "Rapport d'évaluation des références chinoises Big Model 2023 Rapport annuel" publié

【2023-12-28】 Sortir la liste Superclue-décembre 2023

【2023-10-19】 Superclue-Agent: agent chinois natif d'évaluation des tâches Benchmark

【2023-9-12】 Superclue-SETTENIE: Chinois Big Model Multi-Round Confrontation Safety Benchmark

[2023-9-26], Superclue a publié la liste de septembre des modèles chinois.

Superclue est un benchmark complet d'évaluation des grandes modèles.

Par rapport au mois dernier, le corps intelligent de l'agent d'IA a été ajouté

Diagramme de structure d'évaluation des capacités de superclue

Plan d'évaluation multidimensionnel Superclue

Pourquoi les nouvelles capacités d'agent d'agent AI sont-elles ajoutées?

Les agents de l'IA sont actuellement des points chauds de recherche de pointe liés à de grands modèles de langage. Cependant, pour les agents de l'IA, une évaluation approfondie des grands modèles chinois fait défaut. Pour résoudre ce problème, nous avons ajouté une nouvelle évaluation des capacités des agents de l'IA à la nouvelle liste de Superclue. Cette liste se concentrera sur l'évaluation des performances des agents de l'IA dans deux capacités clés, [l'utilisation des outils] et la [planification des tâches].

Liste du classement global de Superclue (décembre 2023)

Classement	Modèle	mécanisme	Points totaux	Problème d'ouverture de plusieurs rounds ouverts	Trois questions objectives sur la capacité d'opt	utiliser
-	Gpt4-turbo	Openai	90,63	90.89	90.03	API
-	GPT4 (page Web)	Openai	83.92	80.76	91.28	page web
-	GPT4 (API)	Openai	79.84	76.24	88.24	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	79.02	75.00	88.38	API
?	Tongyi Qianwen 2.0	Alibaba	76,54	71.78	87,64	API
?	Andesgpt	Oppo	75.04	70.01	86.76	API
4	Sagesse et mots clairs	Tsinghua et sagesse	74.11	69.91	83.92	page web
5	Moonshot (Kimichat)	Le côté obscur de la lune	71,92	67.25	82.81	page web
-	Wen Xin Yiyan 4.0 (page Web)	Baidu	70.28	62.59	88.22	page web
6	QWEN-72B	Alibaba	69.69	62.31	86.90	API
7	Séquence singe	Sortir et demander	68,98	61.01	87,59	API
8	YI-34B-CHAT	Zéro dix mille choses	68.46	61.99	83,56	Modèle
9	Pci-transgpt	Technologie Jiadu	68.33	60,41	86.81	API
9	360gpt_pro	360	68.32	61.36	84.56	API
-	Claude2	Anthropique	67.43	65.14	72.77	API
11	Skylark Big Model (bean bun)	Bytedance	66.35	58,53	84.60	page web
-	Gemini-pro	Google	65.29	59.33	79.20	API
-	GPT3.5-turbo	Openai	61.44	55.63	74.98	API
12	QWEN-14B	Alibaba	61.27	52.04	82.81	API
13	Baichuan2-13b-chat	Baichuan intelligent	61.12	54.45	76.67	Modèle
14	Xverse-13b-2-chat	Technologie Yuanxiang	60,46	53,00	77.87	Modèle
15	Iflytek Spark v3.0	iflytek	59.33	51.74	77.03	API
16	Minimax (comme pour les questions)	Technologie xiyu	58,91	50h00	79.69	page web
17	Chatglm3-6b	Tsinghua et sagesse	49.50	42.30	66.31	Modèle
18	Chinois-alpaca-2-13b	Yiming Cui	45.36	38.91	60,40	Modèle
-	Llama_2_13b_chat	Méta	37.36	34.91	43.09	Modèle

Remarque: Si les scores au premier plan sont relativement proches (moins de 0,03 points), ils seront marqués comme un nom à plusieurs niveaux lors du classement.

Classement des problèmes ouverts à plusieurs rondes de superclue (décembre 2023)

Classement	Modèle	mécanisme	Problème d'ouverture de plusieurs rounds ouverts	Langue et connaissance	Professionnel et compétences	Utilisation de l'outil	Sécurité traditionnelle	utiliser
-	Gpt4-turbo	Openai	90.89	90.21	97.00	100,00	62.75	API
-	GPT4 (page Web)	Openai	80.76	79.49	82.87	94.63	64.71	page web
-	GPT4 (API)	Openai	76.24	73.96	81.15	93.34	53,92	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	75.00	69.54	79.62	80,92	68.00	API
?	Tongyi Qianwen 2.0	Alibaba	71.78	71,58	73.40	76.32	52.94	API
?	Andesgpt	Oppo	70.01	72.23	68.80	70.71	55,88	API
4	Sagesse et mots clairs	Tsinghua et sagesse	69.91	66.98	68,63	83,78	65.31	page web
5	Moonshot (Kimichat)	Le côté obscur de la lune	67.25	69.72	72.57	62.19	43.14	page web
-	Claude2	Anthropique	65.14	55,28	73.27	65.13	83,00	API
-	Wen Xin Yiyan 4.0 (page Web)	Baidu	62.59	65.05	63.26	47.37	64.00	page web
6	QWEN-72B	Alibaba	62.31	59.43	65,59	60,67	52.00	API
7	YI-34B-CHAT	Zéro dix mille choses	61.99	63.90	54,55	71.05	65.31	Modèle
8	360gpt_pro	360	61.36	62.09	58,70	69.33	60,00	API
9	Séquence singe	Sortir et demander	61.01	65.81	59,99	56,58	45.10	API
10	Pci-transgpt	Technologie Jiadu	60,41	60,39	61,56	64.66	50,98	API
-	Gemini-pro	Google	59.33	60,50	61.43	46,53	62.50	API
11	Skylark Big Model (bean bun)	Bytedance	58,53	57,75	56.42	55.26	67,65	page web
-	GPT3.5-turbo	Openai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13b-chat	Baichuan intelligent	54.45	57,35	48,69	56,58	54.90	Modèle
13	Xverse-13b-2-chat	Technologie Yuanxiang	53,00	54.63	45,82	63.33	57,84	Modèle
14	QWEN-14B	Alibaba	52.04	54.29	48.38	45.33	56.86	API
15	Iflytek Spark v3.0	iflytek	51.74	57.40	48.41	44,00	43.14	API
16	Minimax (comme pour les questions)	Technologie xiyu	50h00	53,54	45.05	40.13	50h00	page web
17	Chatglm3-6b	Tsinghua et sagesse	42.30	46.67	36.15	34.25	53,92	Modèle
18	Chinois-alpaca-2-13b	Yiming Cui	38.91	46.46	29.35	27.63	46.94	Modèle
-	Llama_2_13b_chat	Méta	34.91	36,55	30.21	32.67	53,92	Modèle

Classement des questions objectives pour les trois principales capacités de Superclue-Opt (décembre 2023)

Classement	Modèle	mécanisme	Score d'opt	Capacités de base	Caractéristiques chinoises	Compétence académique et professionnelle	utiliser
-	GPT4 (page Web)	Openai	91.28	97,62	82.38	93.85	page web
-	Gpt4-turbo	Openai	90.03	96.99	79.16	93.93	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	88.38	91,65	86.18	87.32	API
-	GPT4 (API)	Openai	88.24	92.92	81.84	89,95	API
-	Wen Xin Yiyan 4.0 (page Web)	Baidu	88.22	76.48	78.32	57.05	page web
?	Tongyi Qianwen 2.0	Alibaba	87,64	78,65	81.28	63.48	API
?	Séquence singe	Sortir et demander	87,59	91.46	80.28	90,57	API
4	QWEN-72B	Alibaba	86.90	92.21	76,65	91.05	API
5	Pci-transgpt	Technologie Jiadu	86.81	90,76	80.88	88.42	API
6	Andesgpt	Oppo	86.76	92.55	76.17	90.81	API
7	Skylark Big Model (bean bun)	Bytedance	84.60	88,75	70.89	93.06	page web
8	360gpt_pro	360	84.56	91.70	73.32	87,93	API
9	Sagesse et mots clairs	Tsinghua et sagesse	83.92	89.14	73.10	88,72	page web
10	YI-34B-CHAT	Zéro dix mille choses	83,56	86.90	72.81	90.12	Modèle
11	QWEN-14B	Alibaba	82.81	91.14	68.67	87.31	API
12	Moonshot (Kimichat)	Le côté obscur de la lune	82.81	87.77	73.39	86.41	page web
13	Minimax (comme pour les questions)	Technologie xiyu	79.69	86,52	66.18	85.18	page web
-	Gemini-pro	Google	79.20	83,72	70,78	82.51	API
14	Xverse-13b-2-chat	Technologie Yuanxiang	77.87	84.46	62.96	83,85	Modèle
15	Iflytek Spark v3.0	iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-chat	Baichuan intelligent	76.67	80.61	63.79	84.50	Modèle
-	GPT3.5-turbo	Openai	74.98	83,78	62.83	77,60	API
-	Claude2	Anthropique	72.77	82.13	65.83	70.10	API
17	Chatglm3-6b	Tsinghua et sagesse	66.31	72.63	54.05	71.38	Modèle
18	Chinois-alpaca-2-13b	Yiming Cui	60,40	70.39	47.75	62.31	Modèle
-	Llama_2_13b_chat	Méta	43.09	50.41	37.22	41.48	Modèle

Classement des capacités de base du Top Top Superclue (décembre 2023)

Modèle	calculer	Raisonnement logique	Code	Encyclopédie des connaissances	Compréhension du langage	Générer une création	dialogue	jeu de rôle	Utilisation de l'outil	Sécurité traditionnelle
Gpt4-turbo	97.24	97,59	96.18	89,62	87.82	89,93	89.22	94.46	100,00	62.75
GPT4 (page Web)	81.16	85,62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
Wen Xin Yiyan 4.0 (API)	77.84	87.84	73.19	98,63	71.93	66.36	57.03	53,77	80,92	68.00
GPT4 (API)	77,60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53,92
Claude2	70.10	80.14	69.57	62.33	72.32	39.81	54,76	47.17	65.13	83,00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
Sagesse et mots clairs	69.07	77.40	59.42	89,73	64.91	61.11	57.81	61.32	83,78	65.31
QWEN-72B	68,56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60,67	52.00
Moonshot (Kimichat)	68,54	79.65	69.52	100,00	66.78	59.65	61.33	60,84	62.19	43.14
Andesgpt	62.59	72.26	71,55	88.36	74.82	64.23	68,56	65.19	70.71	55,88
GPT3.5-turbo	60,31	54.05	54.35	60.27	59,82	55.45	50h00	50.96	55.26	52.00
360gpt_pro	56.43	64.97	54.70	93.84	62.79	55,73	55,75	42.32	69.33	60,00
Gemini-pro	56.32	58,45	69.53	73.91	61.61	54.63	52,54	59.80	46,53	62.50
Séquence singe	55,38	67.12	57,48	92.47	58.77	57.81	56.75	63.27	56,58	45.10
Skylark Big Model (bean bun)	54.69	68,92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67,65
YI-34B-CHAT	50h00	64.38	49.28	88.36	65.18	62.73	58,87	44.34	71.05	65.31
Pci-transgpt	49,99	72.19	62.49	82.88	60,45	57.18	54,76	46.69	64.66	50,98
QWEN-14B	49.48	56,85	38.81	76.71	61.40	45.45	43,75	44.12	45.33	56.86
Wen Xin Yiyan 4.0 (page Web)	48.45	79.73	61,59	97.26	65,79	60,91	53.17	48.11	47.37	64.00
Xverse-13b-2-chat	43.30	50,68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57,84
Minimax (comme pour les questions)	43.30	61.43	30.43	100,00	55.26	33.33	45.16	33.96	40.13	50h00
Baichuan2-13b-chat	40,62	66.22	39.23	78.77	53,51	52,78	55.47	46.23	56,58	54.90
Iflytek Spark v3.0	38,54	57.43	49.26	83,57	62.28	47.17	46.83	47.17	44,00	43.14
Chatglm3-6b	34,74	41.10	32.61	56,94	54.39	38.18	41.41	42.45	34.25	53,92
Llama_2_13b_chat	24.74	40,54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53,92
Chinois-alpaca-2-13b	22.40	45.21	20.45	51.37	51,75	39.09	47,66	42.45	27.63	46.94

Classement des modèles open source Superclue (décembre 2023)

Classement	Modèle	mécanisme	Points totaux	OUVRIR Plusieurs cycles de problèmes d'ouverture	OPTER Trois questions objectives sur les capacités
? ️	QWEN-72B	Alibaba	69.69	62.31	86.90
?	YI-34B-CHAT	Zéro dix mille choses	68.46	61.99	83,56
?	QWEN-14B	Alibaba	61.27	52.04	82.81
4	Baichuan2-13b-chat	Baichuan intelligent	61.12	54.45	76.67
5	Xverse-13b-2-chat	Technologie Yuanxiang	60,46	53,00	77.87
6	Chatglm3-6b	Tsinghua et sagesse	49.50	42.30	66.31
7	Chinois-alpaca-2-13b	Yiming Cui	45.36	38.91	60,40
-	Llama_2_13b_chat	Méta	37.36	34.91	43.09

Amélioration de l'évaluation de 23 novembre

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

Exemple

Capacité 1: compréhension et extraction sémantique

Il s'agit d'une capacité linguistique qui peut comprendre et analyser la signification des informations de texte d'entrée. Le modèle doit être en mesure d'identifier le sens des phrases, des phrases et des paragraphes, tout en étant en mesure d'extraire des informations clés et des sujets de plus grands blocs de texte.

Exemple de dialogue multi-ronde

Remarque: Dans cet exemple, plusieurs cycles de capacités de dialogue peuvent être évalués simultanément.

Capacité 2: capacité de l'agent d'IA

Les agents de l'IA sont actuellement des points chauds de recherche de pointe liés à de grands modèles de langage.

Concentrez-vous sur l'évaluation des performances des agents de l'IA en deux capacités clés: [utilisation des outils] et [planification des tâches]