SuperCLUE 다운로드 - SuperCLUE 소스 코드 다운로드

SuperCLUE

기타 소스코드

1.0.0

다운로드

슈퍼 클루

중국 일반 모델 포괄적 인 벤치 마크 슈퍼 클루

【Langya Bang】-Chinese Big Model Special Arena, 당신이 관심있는 주요 모델은 모두 여기에 있습니다.

"중국 빅 모델 벤치 마크 평가 2024 년 4 월 보고서"

Superclue Chinese Big Model Evaluation Benchmarks의 최신 목록 (2024 년 5 월)

공식 웹 사이트 주소 : www.cluebenchmarks.com/superclue.html

기술 보고서 : Superclue : 포괄적 인 중국 대형 언어 모델 벤치 마크

[2023-12-27] "중국 빅 모델 벤치 마크 평가 보고서 2023 연례 보고서"출시

【2023-12-28】 릴리스 슈퍼 클루어 2023 년 12 월 목록

【2023-10-19】 SuperClue-Agent : 에이전트 중국 기본 작업 평가 벤치 마크

【2023-9-12】 Superclue-Safety : 중국 대형 모델 다중 라운드 대립 안전 벤치 마크

[2023-9-26], Superclue는 9 월 중국 모델 목록을 발표했습니다.

SuperClue는 포괄적 인 큰 모델 평가 벤치 마크입니다.이 평가는 주로 언어 이해 및 세대, 전문 기술 및 지식, 에이전트 및 보안을 포함한 4 가지 능력 사분면에 중점을두고 있으며 12 개의 기본 능력으로 더 세분화됩니다.

지난 달에 비해 AI 요원 지능형 단체가 추가되었습니다.

슈퍼 클루 기능 평가 구조 다이어그램

슈퍼 클루 다차원 평가 계획

새로운 AI 에이전트 기능이 추가되는 이유는 무엇입니까?

AI 에이전트는 현재 대형 언어 모델과 관련된 최첨단 연구 핫스팟입니다. 그러나 AI 요원의 경우 중국 대형 모델에 대한 광범위한 평가가 부족합니다. 이 문제를 해결하기 위해 AI 에이전트의 기능에 대한 새로운 평가를 SuperClue의 새로운 목록에 추가했습니다. 이 목록은 AI 에이전트의 성능을 평가하는 데 중점을 둡니다.

Superclue 전체 순위 목록 (2023 년 12 월)

순위	모델	기구	총점	멀티 라운드 오프닝 문제를여십시오	선택 능력에 대한 세 가지 객관적인 질문	사용
-	gpt4- 터보	Openai	90.63	90.89	90.03	API
-	GPT4 (웹 페이지)	Openai	83.92	80.76	91.28	웹 페이지
-	GPT4 (API)	Openai	79.84	76.24	88.24	API
? ️	Wen Xin Yiyan 4.0 (API)	바이두	79.02	75.00	88.38	API
?	Tongyi Qianwen 2.0	알리바바	76.54	71.78	87.64	API
?	안데스크 프트	OPPO	75.04	70.01	86.76	API
4	지혜와 명확한 말	Tsinghua & 지혜	74.11	69.91	83.92	웹 페이지
5	Moonshot (Kimichat)	달의 어두운면	71.92	67.25	82.81	웹 페이지
-	Wen Xin Yiyan 4.0 (웹 페이지)	바이두	70.28	62.59	88.22	웹 페이지
6	Qwen-72B-Chat	알리바바	69.69	62.31	86.90	API
7	시퀀스 원숭이	나가서 물어보세요	68.98	61.01	87.59	API
8	Yi-34B-Chat	Zero Dance Tonling	68.46	61.99	83.56	모델
9	pci-transgpt	Jiadu 기술	68.33	60.41	86.81	API
9	360GPT_PRO	360	68.32	61.36	84.56	API
-	클로드 2	인류	67.43	65.14	72.77	API
11	Skylark Big Model (Bean Bun)	사이에	66.35	58.53	84.60	웹 페이지
-	쌍둥이 자리 프로	Google	65.29	59.33	79.20	API
-	GPT3.5 터보	Openai	61.44	55.63	74.98	API
12	Qwen-14B-Chat	알리바바	61.27	52.04	82.81	API
13	Baichuan2-13B-Chat	Baichuan 지능형	61.12	54.45	76.67	모델
14	xverse-13b-2-chat	Yuanxiang 기술	60.46	53.00	77.87	모델
15	Iflytek Spark v3.0	Iflytek	59.33	51.74	77.03	API
16	Minimax (문제는)	XIYU 기술	58.91	50.00	79.69	웹 페이지
17	chatglm3-6b	Tsinghua & 지혜	49.50	42.30	66.31	모델
18	중국-알파카 -2-13B	이밍 cui	45.36	38.91	60.40	모델
-	llama_2_13b_chat	메타	37.36	34.91	43.09	모델

참고 : 최전선의 점수가 상대적으로 가까운 경우 (0.03 포인트 미만) 순위에 따라 계층 이름으로 표시됩니다.

Superclue-Open 멀티 라운드 오픈 문제 순위 (2023 년 12 월)

순위	모델	기구	멀티 라운드 오프닝 문제를여십시오	언어와 지식	전문가와 기술	도구 사용	전통적인 보안	사용
-	gpt4- 터보	Openai	90.89	90.21	97.00	100.00	62.75	API
-	GPT4 (웹 페이지)	Openai	80.76	79.49	82.87	94.63	64.71	웹 페이지
-	GPT4 (API)	Openai	76.24	73.96	81.15	93.34	53.92	API
? ️	Wen Xin Yiyan 4.0 (API)	바이두	75.00	69.54	79.62	80.92	68.00	API
?	Tongyi Qianwen 2.0	알리바바	71.78	71.58	73.40	76.32	52.94	API
?	안데스크 프트	OPPO	70.01	72.23	68.80	70.71	55.88	API
4	지혜와 명확한 말	Tsinghua & 지혜	69.91	66.98	68.63	83.78	65.31	웹 페이지
5	Moonshot (Kimichat)	달의 어두운면	67.25	69.72	72.57	62.19	43.14	웹 페이지
-	클로드 2	인류	65.14	55.28	73.27	65.13	83.00	API
-	Wen Xin Yiyan 4.0 (웹 페이지)	바이두	62.59	65.05	63.26	47.37	64.00	웹 페이지
6	Qwen-72B-Chat	알리바바	62.31	59.43	65.59	60.67	52.00	API
7	Yi-34B-Chat	Zero Dance Tonling	61.99	63.90	54.55	71.05	65.31	모델
8	360GPT_PRO	360	61.36	62.09	58.70	69.33	60.00	API
9	시퀀스 원숭이	나가서 물어보세요	61.01	65.81	59.99	56.58	45.10	API
10	pci-transgpt	Jiadu 기술	60.41	60.39	61.56	64.66	50.98	API
-	쌍둥이 자리 프로	Google	59.33	60.50	61.43	46.53	62.50	API
11	Skylark Big Model (Bean Bun)	사이에	58.53	57.75	56.42	55.26	67.65	웹 페이지
-	GPT3.5 터보	Openai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13B-Chat	Baichuan 지능형	54.45	57.35	48.69	56.58	54.90	모델
13	xverse-13b-2-chat	Yuanxiang 기술	53.00	54.63	45.82	63.33	57.84	모델
14	Qwen-14B-Chat	알리바바	52.04	54.29	48.38	45.33	56.86	API
15	Iflytek Spark v3.0	Iflytek	51.74	57.40	48.41	44.00	43.14	API
16	Minimax (문제는)	XIYU 기술	50.00	53.54	45.05	40.13	50.00	웹 페이지
17	chatglm3-6b	Tsinghua & 지혜	42.30	46.67	36.15	34.25	53.92	모델
18	중국-알파카 -2-13B	이밍 cui	38.91	46.46	29.35	27.63	46.94	모델
-	llama_2_13b_chat	메타	34.91	36.55	30.21	32.67	53.92	모델

Superclue-OPT의 세 가지 주요 능력에 대한 객관적인 질문 순위 (2023 년 12 월)

순위	모델	기구	선택 점수	기본 능력	중국어 특성	학업 및 전문 역량	사용
-	GPT4 (웹 페이지)	Openai	91.28	97.62	82.38	93.85	웹 페이지
-	gpt4- 터보	Openai	90.03	96.99	79.16	93.93	API
? ️	Wen Xin Yiyan 4.0 (API)	바이두	88.38	91.65	86.18	87.32	API
-	GPT4 (API)	Openai	88.24	92.92	81.84	89.95	API
-	Wen Xin Yiyan 4.0 (웹 페이지)	바이두	88.22	76.48	78.32	57.05	웹 페이지
?	Tongyi Qianwen 2.0	알리바바	87.64	78.65	81.28	63.48	API
?	시퀀스 원숭이	나가서 물어보세요	87.59	91.46	80.28	90.57	API
4	Qwen-72B-Chat	알리바바	86.90	92.21	76.65	91.05	API
5	pci-transgpt	Jiadu 기술	86.81	90.76	80.88	88.42	API
6	안데스크 프트	OPPO	86.76	92.55	76.17	90.81	API
7	Skylark Big Model (Bean Bun)	사이에	84.60	88.75	70.89	93.06	웹 페이지
8	360GPT_PRO	360	84.56	91.70	73.32	87.93	API
9	지혜와 명확한 말	Tsinghua & 지혜	83.92	89.14	73.10	88.72	웹 페이지
10	Yi-34B-Chat	Zero Dance Tonling	83.56	86.90	72.81	90.12	모델
11	Qwen-14B-Chat	알리바바	82.81	91.14	68.67	87.31	API
12	Moonshot (Kimichat)	달의 어두운면	82.81	87.77	73.39	86.41	웹 페이지
13	Minimax (문제는)	XIYU 기술	79.69	86.52	66.18	85.18	웹 페이지
-	쌍둥이 자리 프로	Google	79.20	83.72	70.78	82.51	API
14	xverse-13b-2-chat	Yuanxiang 기술	77.87	84.46	62.96	83.85	모델
15	Iflytek Spark v3.0	Iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13B-Chat	Baichuan 지능형	76.67	80.61	63.79	84.50	모델
-	GPT3.5 터보	Openai	74.98	83.78	62.83	77.60	API
-	클로드 2	인류	72.77	82.13	65.83	70.10	API
17	chatglm3-6b	Tsinghua & 지혜	66.31	72.63	54.05	71.38	모델
18	중국-알파카 -2-13B	이밍 cui	60.40	70.39	47.75	62.31	모델
-	llama_2_13b_chat	메타	43.09	50.41	37.22	41.48	모델

Superclue Top 10 기본 기능 순위 (2023 년 12 월)

모델	믿다	논리적 추론	암호	지식 백과 사전	언어 이해	창조를 생성하십시오	대화	역할 플레이	도구 사용	전통적인 보안
gpt4- 터보	97.24	97.59	96.18	89.62	87.82	89.93	89.22	94.46	100.00	62.75
GPT4 (웹 페이지)	81.16	85.62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
Wen Xin Yiyan 4.0 (API)	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4 (API)	77.60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53.92
클로드 2	70.10	80.14	69.57	62.33	72.32	39.81	54.76	47.17	65.13	83.00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
지혜와 명확한 말	69.07	77.40	59.42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
Qwen-72B-Chat	68.56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60.67	52.00
Moonshot (Kimichat)	68.54	79.65	69.52	100.00	66.78	59.65	61.33	60.84	62.19	43.14
안데스크 프트	62.59	72.26	71.55	88.36	74.82	64.23	68.56	65.19	70.71	55.88
GPT3.5 터보	60.31	54.05	54.35	60.27	59.82	55.45	50.00	50.96	55.26	52.00
360GPT_PRO	56.43	64.97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
쌍둥이 자리 프로	56.32	58.45	69.53	73.91	61.61	54.63	52.54	59.80	46.53	62.50
시퀀스 원숭이	55.38	67.12	57.48	92.47	58.77	57.81	56.75	63.27	56.58	45.10
Skylark Big Model (Bean Bun)	54.69	68.92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67.65
Yi-34B-Chat	50.00	64.38	49.28	88.36	65.18	62.73	58.87	44.34	71.05	65.31
pci-transgpt	49.99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64.66	50.98
Qwen-14B-Chat	49.48	56.85	38.81	76.71	61.40	45.45	43.75	44.12	45.33	56.86
Wen Xin Yiyan 4.0 (웹 페이지)	48.45	79.73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
xverse-13b-2-chat	43.30	50.68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57.84
Minimax (문제는)	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13B-Chat	40.62	66.22	39.23	78.77	53.51	52.78	55.47	46.23	56.58	54.90
Iflytek Spark v3.0	38.54	57.43	49.26	83.57	62.28	47.17	46.83	47.17	44.00	43.14
chatglm3-6b	34.74	41.10	32.61	56.94	54.39	38.18	41.41	42.45	34.25	53.92
llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53.92
중국-알파카 -2-13B	22.40	45.21	20.45	51.37	51.75	39.09	47.66	42.45	27.63	46.94

Superclue 오픈 소스 모델 순위 (2023 년 12 월)

순위	모델	기구	총점	열려 있는 여러 라운드의 오프닝 문제	고르다 능력에 대한 세 가지 객관적인 질문
? ️	Qwen-72B-Chat	알리바바	69.69	62.31	86.90
?	Yi-34B-Chat	Zero Dance Tonling	68.46	61.99	83.56
?	Qwen-14B-Chat	알리바바	61.27	52.04	82.81
4	Baichuan2-13B-Chat	Baichuan 지능형	61.12	54.45	76.67
5	xverse-13b-2-chat	Yuanxiang 기술	60.46	53.00	77.87
6	chatglm3-6b	Tsinghua & 지혜	49.50	42.30	66.31
7	중국-알파카 -2-13B	이밍 cui	45.36	38.91	60.40
-	llama_2_13b_chat	메타	37.36	34.91	43.09

23-1 월 23 일 평가 개선

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。