SuperCLUEのダウンロードSuperCLUEソースコードのダウンロード

SuperCLUE

その他のソースコード

1.0.0

ダウンロード

SuperClue

中国の一般的なモデル包括的なベンチマークスーパークラウ

【langya bang-chinese big model special area、あなたが気にする主要なモデルはすべてここにあります

「中国のビッグモデルベンチマーク評価2024年4月レポート」

SuperClue中国のビッグモデル評価ベンチマークの最新リスト（2024年5月）

公式ウェブサイトの住所：www.cluebenchmarks.com/superclue.html

テクニカルレポート：SuperClue：包括的な中国の大手言語モデルベンチマーク

[2023-12-27]「中国のビッグモデルベンチマーク評価レポート2023年次報告書」リリース

【2023-12-28】リリースSuperClue-12-cebre 2023リスト

【2023-10-19】スーパークリューエージェント：エージェント中国ネイティブタスク評価ベンチマーク

【2023-9-12】スーパークリューセーフティ：中国のビッグモデルマルチラウンド対立安全ベンチマーク

[2023-9-26]、SuperClueは中国モデルの9月のリストをリリースしました。

SuperClueは、主に言語の理解と生成、専門的スキルと知識、エージェントエージェント、セキュリティなど、包括的な大きなモデル評価ベンチマークです。

先月と比較して、AIエージェントインテリジェントボディが追加されました

SuperClue機能評価構造図

SuperClue多次元評価計画

新しいAIエージェント機能が追加されるのはなぜですか？

AIエージェントは現在、大規模な言語モデルに関連する最先端の研究ホットスポットです。ただし、AIエージェントの場合、中国の大きなモデルの広範な評価が不足しています。この問題を解決するために、AIエージェントの機能の新しい評価をSuperClueの新しいリストに追加しました。このリストは、[ツールの使用]と[タスク計画]の2つの重要な能力でAIエージェントのパフォーマンスを評価することに焦点を当てています。

SuperClueの総合ランキングリスト（2023年12月）

ランキング	モデル	機構	合計ポイント	マルチラウンドオープニングの問題を開きます	OPT機能に関する3つの客観的な質問	使用
-	GPT4-Turbo	Openai	90.63	90.89	90.03	API
-	GPT4（Webページ）	Openai	83.92	80.76	91.28	ウェブページ
-	GPT4（API）	Openai	79.84	76.24	88.24	API
？§	Wen Xin Yiyan 4.0（API）	Baidu	79.02	75.00	88.38	API
？	Tongyi Qianwen 2.0	アリババ	76.54	71.78	87.64	API
？	andesgpt	oppo	75.04	70.01	86.76	API
4	知恵と明確な言葉	ツィンゲア＆知恵	74.11	69.91	83.92	ウェブページ
5	ムーンショット（キミチャット）	月の暗い側	71.92	67.25	82.81	ウェブページ
-	Wen Xin Yiyan 4.0（Webページ）	Baidu	70.28	62.59	88.22	ウェブページ
6	Qwen-72b-chat	アリババ	69.69	62.31	86.90	API
7	シーケンスモンキー	外に出て尋ねてください	68.98	61.01	87.59	API
8	yi-34b-chat	ゼロ万	68.46	61.99	83.56	モデル
9	pci-transgpt	Jiaduテクノロジー	68.33	60.41	86.81	API
9	360GPT_PRO	360	68.32	61.36	84.56	API
-	claude2	人類	67.43	65.14	72.77	API
11	Skylark Big Model（Bean Bun）	bytedance	66.35	58.53	84.60	ウェブページ
-	gemini-pro	グーグル	65.29	59.33	79.20	API
-	GPT3.5ターボ	Openai	61.44	55.63	74.98	API
12	qwen-14b-chat	アリババ	61.27	52.04	82.81	API
13	Baichuan2-13b-chat	Baichuan Intelligent	61.12	54.45	76.67	モデル
14	vsverse-13b-2-chat	元Xiangテクノロジー	60.46	53.00	77.87	モデル
15	Iflytek Spark v3.0	iflytek	59.33	51.74	77.03	API
16	Minimax（問題に関して）	XIYUテクノロジー	58.91	50.00	79.69	ウェブページ
17	chatglm3-6b	ツィンゲア＆知恵	49.50	42.30	66.31	モデル
18	中国アルパカ-2-13b	Yiming Cui	45.36	38.91	60.40	モデル
-	llama_2_13b_chat	メタ	37.36	34.91	43.09	モデル

注：最前線のスコアが比較的近い場合（0.03ポイント未満）、ランキング時に階層化された名前としてマークされます。

SuperClue-Open Multi-Round Open Issuesランキング（2023年12月）

ランキング	モデル	機構	マルチラウンドオープニングの問題を開きます	言語と知識	専門的とスキル	ツールの使用	従来のセキュリティ	使用
-	GPT4-Turbo	Openai	90.89	90.21	97.00	100.00	62.75	API
-	GPT4（Webページ）	Openai	80.76	79.49	82.87	94.63	64.71	ウェブページ
-	GPT4（API）	Openai	76.24	73.96	81.15	93.34	53.92	API
？§	Wen Xin Yiyan 4.0（API）	Baidu	75.00	69.54	79.62	80.92	68.00	API
？	Tongyi Qianwen 2.0	アリババ	71.78	71.58	73.40	76.32	52.94	API
？	andesgpt	oppo	70.01	72.23	68.80	70.71	55.88	API
4	知恵と明確な言葉	ツィンゲア＆知恵	69.91	66.98	68.63	83.78	65.31	ウェブページ
5	ムーンショット（キミチャット）	月の暗い側	67.25	69.72	72.57	62.19	43.14	ウェブページ
-	claude2	人類	65.14	55.28	73.27	65.13	83.00	API
-	Wen Xin Yiyan 4.0（Webページ）	Baidu	62.59	65.05	63.26	47.37	64.00	ウェブページ
6	Qwen-72b-chat	アリババ	62.31	59.43	65.59	60.67	52.00	API
7	yi-34b-chat	ゼロ万	61.99	63.90	54.55	71.05	65.31	モデル
8	360GPT_PRO	360	61.36	62.09	58.70	69.33	60.00	API
9	シーケンスモンキー	外に出て尋ねてください	61.01	65.81	59.99	56.58	45.10	API
10	pci-transgpt	Jiaduテクノロジー	60.41	60.39	61.56	64.66	50.98	API
-	gemini-pro	グーグル	59.33	60.50	61.43	46.53	62.50	API
11	Skylark Big Model（Bean Bun）	bytedance	58.53	57.75	56.42	55.26	67.65	ウェブページ
-	GPT3.5ターボ	Openai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13b-chat	Baichuan Intelligent	54.45	57.35	48.69	56.58	54.90	モデル
13	vsverse-13b-2-chat	元Xiangテクノロジー	53.00	54.63	45.82	63.33	57.84	モデル
14	qwen-14b-chat	アリババ	52.04	54.29	48.38	45.33	56.86	API
15	Iflytek Spark v3.0	iflytek	51.74	57.40	48.41	44.00	43.14	API
16	Minimax（問題に関して）	XIYUテクノロジー	50.00	53.54	45.05	40.13	50.00	ウェブページ
17	chatglm3-6b	ツィンゲア＆知恵	42.30	46.67	36.15	34.25	53.92	モデル
18	中国アルパカ-2-13b	Yiming Cui	38.91	46.46	29.35	27.63	46.94	モデル
-	llama_2_13b_chat	メタ	34.91	36.55	30.21	32.67	53.92	モデル

SuperClue-OPTの3つの主要な能力に対する客観的な質問のランキング（2023年12月）

ランキング	モデル	機構	オプトスコア	基本能力	漢字	学問的および専門的な能力	使用
-	GPT4（Webページ）	Openai	91.28	97.62	82.38	93.85	ウェブページ
-	GPT4-Turbo	Openai	90.03	96.99	79.16	93.93	API
？§	Wen Xin Yiyan 4.0（API）	Baidu	88.38	91.65	86.18	87.32	API
-	GPT4（API）	Openai	88.24	92.92	81.84	89.95	API
-	Wen Xin Yiyan 4.0（Webページ）	Baidu	88.22	76.48	78.32	57.05	ウェブページ
？	Tongyi Qianwen 2.0	アリババ	87.64	78.65	81.28	63.48	API
？	シーケンスモンキー	外に出て尋ねてください	87.59	91.46	80.28	90.57	API
4	Qwen-72b-chat	アリババ	86.90	92.21	76.65	91.05	API
5	pci-transgpt	Jiaduテクノロジー	86.81	90.76	80.88	88.42	API
6	andesgpt	oppo	86.76	92.55	76.17	90.81	API
7	Skylark Big Model（Bean Bun）	bytedance	84.60	88.75	70.89	93.06	ウェブページ
8	360GPT_PRO	360	84.56	91.70	73.32	87.93	API
9	知恵と明確な言葉	ツィンゲア＆知恵	83.92	89.14	73.10	88.72	ウェブページ
10	yi-34b-chat	ゼロ万	83.56	86.90	72.81	90.12	モデル
11	qwen-14b-chat	アリババ	82.81	91.14	68.67	87.31	API
12	ムーンショット（キミチャット）	月の暗い側	82.81	87.77	73.39	86.41	ウェブページ
13	Minimax（問題に関して）	XIYUテクノロジー	79.69	86.52	66.18	85.18	ウェブページ
-	gemini-pro	グーグル	79.20	83.72	70.78	82.51	API
14	vsverse-13b-2-chat	元Xiangテクノロジー	77.87	84.46	62.96	83.85	モデル
15	Iflytek Spark v3.0	iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-chat	Baichuan Intelligent	76.67	80.61	63.79	84.50	モデル
-	GPT3.5ターボ	Openai	74.98	83.78	62.83	77.60	API
-	claude2	人類	72.77	82.13	65.83	70.10	API
17	chatglm3-6b	ツィンゲア＆知恵	66.31	72.63	54.05	71.38	モデル
18	中国アルパカ-2-13b	Yiming Cui	60.40	70.39	47.75	62.31	モデル
-	llama_2_13b_chat	メタ	43.09	50.41	37.22	41.48	モデル

SuperClueトップ10基本機能ランキング（2023年12月）

モデル	計算します	論理的推論	コード	知識百科事典	言語理解	作成を生成します	対話	ロールプレイ	ツールの使用	従来のセキュリティ
GPT4-Turbo	97.24	97.59	96.18	89.62	87.82	89.93	89.22	94.46	100.00	62.75
GPT4（Webページ）	81.16	85.62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
Wen Xin Yiyan 4.0（API）	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4（API）	77.60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53.92
claude2	70.10	80.14	69.57	62.33	72.32	39.81	54.76	47.17	65.13	83.00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
知恵と明確な言葉	69.07	77.40	59.42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
Qwen-72b-chat	68.56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60.67	52.00
ムーンショット（キミチャット）	68.54	79.65	69.52	100.00	66.78	59.65	61.33	60.84	62.19	43.14
andesgpt	62.59	72.26	71.55	88.36	74.82	64.23	68.56	65.19	70.71	55.88
GPT3.5ターボ	60.31	54.05	54.35	60.27	59.82	55.45	50.00	50.96	55.26	52.00
360GPT_PRO	56.43	64.97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
gemini-pro	56.32	58.45	69.53	73.91	61.61	54.63	52.54	59.80	46.53	62.50
シーケンスモンキー	55.38	67.12	57.48	92.47	58.77	57.81	56.75	63.27	56.58	45.10
Skylark Big Model（Bean Bun）	54.69	68.92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67.65
yi-34b-chat	50.00	64.38	49.28	88.36	65.18	62.73	58.87	44.34	71.05	65.31
pci-transgpt	49.99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64.66	50.98
qwen-14b-chat	49.48	56.85	38.81	76.71	61.40	45.45	43.75	44.12	45.33	56.86
Wen Xin Yiyan 4.0（Webページ）	48.45	79.73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
vsverse-13b-2-chat	43.30	50.68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57.84
Minimax（問題に関して）	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13b-chat	40.62	66.22	39.23	78.77	53.51	52.78	55.47	46.23	56.58	54.90
Iflytek Spark v3.0	38.54	57.43	49.26	83.57	62.28	47.17	46.83	47.17	44.00	43.14
chatglm3-6b	34.74	41.10	32.61	56.94	54.39	38.18	41.41	42.45	34.25	53.92
llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53.92
中国アルパカ-2-13b	22.40	45.21	20.45	51.37	51.75	39.09	47.66	42.45	27.63	46.94

SuperClueオープンソースモデルのランキング（2023年12月）

ランキング	モデル	機構	合計ポイント	開ける複数のラウンドのオープニング問題	Opt 能力に関する3つの客観的な質問
？§	Qwen-72b-chat	アリババ	69.69	62.31	86.90
？	yi-34b-chat	ゼロ万	68.46	61.99	83.56
？	qwen-14b-chat	アリババ	61.27	52.04	82.81
4	Baichuan2-13b-chat	Baichuan Intelligent	61.12	54.45	76.67
5	vsverse-13b-2-chat	元Xiangテクノロジー	60.46	53.00	77.87
6	chatglm3-6b	ツィンゲア＆知恵	49.50	42.30	66.31
7	中国アルパカ-2-13b	Yiming Cui	45.36	38.91	60.40
-	llama_2_13b_chat	メタ	37.36	34.91	43.09

23〜11月の評価改善

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。