SuperCLUE -Download - SuperCLUE Source Code Download

SuperCLUE

Anderer Quellcode

1.0.0

Herunterladen

Superclue

Chinesische Allgemeinmodell umfassende Benchmark Superclue

【Langya Bang】 -Chinese Big Model Special Arena, die führenden Modelle, die Ihnen wichtig sind, sind alle hier

"Chinese Big Model Benchmark Evaluation April 2024 Bericht"

Die neueste Liste der Superclue Chinese Big Model Evaluation Benchmarks (Mai 2024)

Offizielle Website -Adresse: www.cluebenchmarks.com/superclue.html

Technischer Bericht: Superclue: Ein umfassendes chinesisches Großsprachmodell -Benchmark

[2023-12-27] "Chinesische Big Model Benchmark-Bewertungsbericht 2023 Jahresbericht" veröffentlicht "

【2023-12-28】 Release Superclue-Dezember 2023 Liste

【2023-10-19】 Superclue-Agent: Agent Chinese Native Task Evaluation Benchmark

【2023-9-12】 Superclue-Sicherheit: Chinese Big Model Multi-Runden-Konfrontation Sicherheitsbenchmark

[2023-9-26] veröffentlichte Superclue die September-Liste chinesischer Modelle.

Superclue ist ein umfassender Benchmark für große Modellbewertungen.

Im Vergleich zum letzten Monat wurde der AI -Agent intelligente Körper hinzugefügt

Superclue -Fähigkeitsbewertungsstrukturdiagramm

Superclue Mehrdimensionaler Bewertungsplan

Warum werden die neuen Funktionen von AI Agent Agent hinzugefügt?

AI-Agenten sind derzeit innovative Forschungs-Hotspots im Zusammenhang mit großen Sprachmodellen. Für AI -Agenten fehlt jedoch eine umfassende Bewertung chinesischer großer Modelle. Um dieses Problem zu lösen, haben wir die neue Liste von Superclue eine neue Bewertung der Fähigkeiten von AI -Agenten hinzugefügt. Diese Liste konzentriert sich auf die Bewertung der Leistung von AI -Agenten in zwei wichtigen Fähigkeiten, [Tools -Nutzung] und [Aufgabenplanung].

Superclue Gesamtrankingliste (Dezember 2023)

Rang	Modell	Mechanismus	Gesamtpunkte	Öffnen Sie das Multi-Runden-Öffnungsproblem	Drei objektive Fragen zur OPT -Fähigkeit	verwenden
- -	Gpt4-turbo	Openai	90.63	90.89	90.03	API
- -	GPT4 (Webseite)	Openai	83,92	80.76	91.28	Webseite
- -	GPT4 (API)	Openai	79,84	76,24	88.24	API
? Euen	Wen Xin Yiyan 4.0 (API)	Baidu	79.02	75,00	88.38	API
?	Tongyi Qianwen 2.0	Alibaba	76,54	71.78	87.64	API
?	Andesgpt	Oppo	75.04	70.01	86,76	API
4	Weisheit und klare Worte	Tsinghua & Weisheit	74.11	69.91	83,92	Webseite
5	Mondshot (Kimichat)	Die dunkle Seite des Mondes	71,92	67,25	82.81	Webseite
- -	Wen Xin Yiyan 4.0 (Webseite)	Baidu	70,28	62,59	88.22	Webseite
6	QWEN-72B-CHAT	Alibaba	69.69	62.31	86.90	API
7	Sequenzaffen	Ausgehen und fragen	68,98	61.01	87,59	API
8	Yi-34b-chat	Zehntausend Dinge	68.46	61.99	83,56	Modell
9	Pci-transgpt	Jiadu -Technologie	68.33	60.41	86.81	API
9	360GPT_PRO	360	68.32	61.36	84,56	API
- -	Claude2	Anthropisch	67.43	65.14	72.77	API
11	Skylark Big Model (Bohnenbrötchen)	Bytedance	66,35	58.53	84.60	Webseite
- -	Gemini-Pro	Google	65.29	59.33	79.20	API
- -	GPT3.5-Turbo	Openai	61.44	55.63	74,98	API
12	QWEN-14B-CHAT	Alibaba	61.27	52.04	82.81	API
13	Baichuan2-13b-Chat	Baichuan intelligent	61.12	54.45	76,67	Modell
14	Xverse-13b-2-Chat	Yuanxiang -Technologie	60.46	53,00	77,87	Modell
15	Iflytek Spark v3.0	Iflytek	59.33	51.74	77.03	API
16	Minimax (wie für Angelegenheiten)	XIYU -Technologie	58.91	50.00	79,69	Webseite
17	Chatglm3-6b	Tsinghua & Weisheit	49,50	42.30	66.31	Modell
18	Chinesisch-Alpaka-2-13b	yiming cui	45,36	38,91	60.40	Modell
- -	Llama_2_13b_chat	Meta	37.36	34.91	43.09	Modell

HINWEIS: Wenn die Punktzahlen im Vordergrund relativ eng sind (weniger als 0,03 Punkte), werden sie beim Ranking als abgestufter Name markiert.

Superclue-Open-Multi-Runden-Open-Ausgaben-Ranking (Dezember 2023)

Rang	Modell	Mechanismus	Öffnen Sie das Multi-Runden-Öffnungsproblem	Sprache und Wissen	Professionelle und Fähigkeiten	Werkzeugverbrauch	Traditionelle Sicherheit	verwenden
- -	Gpt4-turbo	Openai	90.89	90.21	97.00	100.00	62.75	API
- -	GPT4 (Webseite)	Openai	80.76	79,49	82.87	94.63	64.71	Webseite
- -	GPT4 (API)	Openai	76,24	73,96	81.15	93.34	53,92	API
? Euen	Wen Xin Yiyan 4.0 (API)	Baidu	75,00	69,54	79,62	80.92	68.00	API
?	Tongyi Qianwen 2.0	Alibaba	71.78	71.58	73,40	76,32	52,94	API
?	Andesgpt	Oppo	70.01	72.23	68.80	70.71	55,88	API
4	Weisheit und klare Worte	Tsinghua & Weisheit	69.91	66,98	68,63	83.78	65.31	Webseite
5	Mondshot (Kimichat)	Die dunkle Seite des Mondes	67,25	69.72	72,57	62.19	43.14	Webseite
- -	Claude2	Anthropisch	65.14	55.28	73,27	65.13	83,00	API
- -	Wen Xin Yiyan 4.0 (Webseite)	Baidu	62,59	65.05	63.26	47.37	64.00	Webseite
6	QWEN-72B-CHAT	Alibaba	62.31	59.43	65,59	60.67	52.00	API
7	Yi-34b-chat	Zehntausend Dinge	61.99	63,90	54,55	71.05	65.31	Modell
8	360GPT_PRO	360	61.36	62.09	58.70	69.33	60.00	API
9	Sequenzaffen	Ausgehen und fragen	61.01	65,81	59.99	56,58	45.10	API
10	Pci-transgpt	Jiadu -Technologie	60.41	60.39	61.56	64,66	50,98	API
- -	Gemini-Pro	Google	59.33	60.50	61.43	46,53	62.50	API
11	Skylark Big Model (Bohnenbrötchen)	Bytedance	58.53	57.75	56.42	55.26	67,65	Webseite
- -	GPT3.5-Turbo	Openai	55.63	55.30	56,24	55.26	52.00	API
12	Baichuan2-13b-Chat	Baichuan intelligent	54.45	57.35	48.69	56,58	54,90	Modell
13	Xverse-13b-2-Chat	Yuanxiang -Technologie	53,00	54,63	45,82	63.33	57.84	Modell
14	QWEN-14B-CHAT	Alibaba	52.04	54.29	48.38	45,33	56,86	API
15	Iflytek Spark v3.0	Iflytek	51.74	57.40	48.41	44.00	43.14	API
16	Minimax (wie für Angelegenheiten)	XIYU -Technologie	50.00	53,54	45,05	40.13	50.00	Webseite
17	Chatglm3-6b	Tsinghua & Weisheit	42.30	46,67	36.15	34.25	53,92	Modell
18	Chinesisch-Alpaka-2-13b	yiming cui	38,91	46,46	29.35	27.63	46,94	Modell
- -	Llama_2_13b_chat	Meta	34.91	36.55	30.21	32.67	53,92	Modell

Ranking objektiver Fragen für die drei Hauptfähigkeiten von Superclue-opt (Dezember 2023)

Rang	Modell	Mechanismus	Opt -Score	Grundfähigkeiten	Chinesische Eigenschaften	Akademische und berufliche Kompetenz	verwenden
- -	GPT4 (Webseite)	Openai	91.28	97.62	82.38	93,85	Webseite
- -	Gpt4-turbo	Openai	90.03	96,99	79.16	93.93	API
? Euen	Wen Xin Yiyan 4.0 (API)	Baidu	88.38	91.65	86.18	87.32	API
- -	GPT4 (API)	Openai	88.24	92.92	81.84	89,95	API
- -	Wen Xin Yiyan 4.0 (Webseite)	Baidu	88.22	76,48	78,32	57.05	Webseite
?	Tongyi Qianwen 2.0	Alibaba	87.64	78,65	81.28	63,48	API
?	Sequenzaffen	Ausgehen und fragen	87,59	91.46	80.28	90.57	API
4	QWEN-72B-CHAT	Alibaba	86.90	92.21	76,65	91.05	API
5	Pci-transgpt	Jiadu -Technologie	86.81	90.76	80.88	88.42	API
6	Andesgpt	Oppo	86,76	92.55	76.17	90.81	API
7	Skylark Big Model (Bohnenbrötchen)	Bytedance	84.60	88.75	70,89	93.06	Webseite
8	360GPT_PRO	360	84,56	91.70	73,32	87.93	API
9	Weisheit und klare Worte	Tsinghua & Weisheit	83,92	89.14	73.10	88.72	Webseite
10	Yi-34b-chat	Zehntausend Dinge	83,56	86.90	72,81	90.12	Modell
11	QWEN-14B-CHAT	Alibaba	82.81	91.14	68,67	87.31	API
12	Mondshot (Kimichat)	Die dunkle Seite des Mondes	82.81	87.77	73.39	86.41	Webseite
13	Minimax (wie für Angelegenheiten)	XIYU -Technologie	79,69	86,52	66.18	85.18	Webseite
- -	Gemini-Pro	Google	79.20	83.72	70,78	82,51	API
14	Xverse-13b-2-Chat	Yuanxiang -Technologie	77,87	84.46	62,96	83,85	Modell
15	Iflytek Spark v3.0	Iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-Chat	Baichuan intelligent	76,67	80.61	63.79	84,50	Modell
- -	GPT3.5-Turbo	Openai	74,98	83.78	62,83	77,60	API
- -	Claude2	Anthropisch	72.77	82.13	65,83	70.10	API
17	Chatglm3-6b	Tsinghua & Weisheit	66.31	72.63	54.05	71.38	Modell
18	Chinesisch-Alpaka-2-13b	yiming cui	60.40	70.39	47,75	62.31	Modell
- -	Llama_2_13b_chat	Meta	43.09	50.41	37.22	41.48	Modell

Superclue Top Ten Grundfunktionsranking (Dezember 2023)

Modell	berechnen	Logische Argumentation	Code	Wissenszyklopädie	Sprachverständnis	Schöpfung erzeugen	Dialog	Rollenspiel	Werkzeugverbrauch	Traditionelle Sicherheit
Gpt4-turbo	97.24	97.59	96.18	89,62	87,82	89,93	89,22	94.46	100.00	62.75
GPT4 (Webseite)	81.16	85.62	81.84	79.17	81.91	78,91	78,38	79.09	94.63	64.71
Wen Xin Yiyan 4.0 (API)	77,84	87,84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4 (API)	77.60	85.37	80.49	78.08	73.04	72.73	75,78	70.17	93.34	53,92
Claude2	70.10	80.14	69,57	62.33	72.32	39,81	54.76	47.17	65.13	83,00
Tongyi Qianwen 2.0	70.10	73,29	76,81	93.15	71.93	62.73	68,75	61.32	76,32	52,94
Weisheit und klare Worte	69.07	77,40	59,42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
QWEN-72B-CHAT	68,56	68.06	60.14	95.89	63.16	42,59	48.44	47.06	60.67	52.00
Mondshot (Kimichat)	68,54	79,65	69,52	100.00	66,78	59,65	61.33	60.84	62.19	43.14
Andesgpt	62,59	72.26	71,55	88.36	74,82	64.23	68,56	65.19	70.71	55,88
GPT3.5-Turbo	60.31	54.05	54,35	60.27	59,82	55.45	50.00	50.96	55.26	52.00
360GPT_PRO	56.43	64,97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
Gemini-Pro	56.32	58.45	69,53	73,91	61.61	54,63	52,54	59,80	46,53	62.50
Sequenzaffen	55.38	67.12	57.48	92.47	58.77	57.81	56,75	63.27	56,58	45.10
Skylark Big Model (Bohnenbrötchen)	54.69	68,92	45,65	86,99	56.14	48.18	53.12	44,34	55.26	67,65
Yi-34b-chat	50.00	64,38	49,28	88.36	65.18	62.73	58.87	44,34	71.05	65.31
Pci-transgpt	49,99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64,66	50,98
QWEN-14B-CHAT	49,48	56,85	38.81	76,71	61.40	45,45	43.75	44.12	45,33	56,86
Wen Xin Yiyan 4.0 (Webseite)	48.45	79,73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
Xverse-13b-2-Chat	43.30	50.68	43.48	72,92	57.02	47,27	46,88	49.06	63.33	57.84
Minimax (wie für Angelegenheiten)	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13b-Chat	40.62	66,22	39.23	78,77	53,51	52.78	55.47	46.23	56,58	54,90
Iflytek Spark v3.0	38,54	57.43	49,26	83,57	62.28	47.17	46,83	47.17	44.00	43.14
Chatglm3-6b	34.74	41.10	32.61	56,94	54.39	38.18	41.41	42.45	34.25	53,92
Llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53,92
Chinesisch-Alpaka-2-13b	22.40	45,21	20.45	51.37	51.75	39.09	47,66	42.45	27.63	46,94

Superclue Open Source Model Rankings (Dezember 2023)

Rang	Modell	Mechanismus	Gesamtpunkte	OFFEN Mehrere Runden von Öffnungsfragen	Opt Drei objektive Fragen zu Fähigkeiten
? Euen	QWEN-72B-CHAT	Alibaba	69.69	62.31	86.90
?	Yi-34b-chat	Zehntausend Dinge	68.46	61.99	83,56
?	QWEN-14B-CHAT	Alibaba	61.27	52.04	82.81
4	Baichuan2-13b-Chat	Baichuan intelligent	61.12	54.45	76,67
5	Xverse-13b-2-Chat	Yuanxiang -Technologie	60.46	53,00	77,87
6	Chatglm3-6b	Tsinghua & Weisheit	49,50	42.30	66.31
7	Chinesisch-Alpaka-2-13b	yiming cui	45,36	38,91	60.40
- -	Llama_2_13b_chat	Meta	37.36	34.91	43.09

23-November-Bewertungsverbesserung

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

Beispiel

Fähigkeit 1: Semantisches Verständnis und Extraktion

Dies ist eine Sprachfähigkeit, die die Bedeutung von Eingabetextinformationen verstehen und analysieren kann. Das Modell muss in der Lage sein, die Bedeutung von Phrasen, Sätzen und Absätzen zu identifizieren und gleichzeitig wichtige Informationen und Themen aus größeren Textblöcken zu extrahieren.

Beispiel für ein Multi-Runden-Dialog

Hinweis: In diesem Beispiel können mehrere Runden von Dialogfunktionen gleichzeitig bewertet werden.

Fähigkeit 2: KI -Agenten -Fähigkeit

AI-Agenten sind derzeit innovative Forschungs-Hotspots im Zusammenhang mit großen Sprachmodellen.

Konzentrieren Sie sich auf die Bewertung der Leistung von AI -Agenten in zwei wichtigen Fähigkeiten: [Werkzeugverwendung] und [Aufgabenplanung]