중국 일반 모델 포괄적 인 벤치 마크 슈퍼 클루
【Langya Bang】-Chinese Big Model Special Arena, 당신이 관심있는 주요 모델은 모두 여기에 있습니다.
"중국 빅 모델 벤치 마크 평가 2024 년 4 월 보고서"
Superclue Chinese Big Model Evaluation Benchmarks의 최신 목록 (2024 년 5 월)
공식 웹 사이트 주소 : www.cluebenchmarks.com/superclue.html
기술 보고서 : Superclue : 포괄적 인 중국 대형 언어 모델 벤치 마크
[2023-12-27] "중국 빅 모델 벤치 마크 평가 보고서 2023 연례 보고서"출시
【2023-12-28】 릴리스 슈퍼 클루어 2023 년 12 월 목록
【2023-10-19】 SuperClue-Agent : 에이전트 중국 기본 작업 평가 벤치 마크
【2023-9-12】 Superclue-Safety : 중국 대형 모델 다중 라운드 대립 안전 벤치 마크
[2023-9-26], Superclue는 9 월 중국 모델 목록을 발표했습니다.
SuperClue는 포괄적 인 큰 모델 평가 벤치 마크입니다.이 평가는 주로 언어 이해 및 세대, 전문 기술 및 지식, 에이전트 및 보안을 포함한 4 가지 능력 사분면에 중점을두고 있으며 12 개의 기본 능력으로 더 세분화됩니다.
지난 달에 비해 AI 요원 지능형 단체가 추가되었습니다.



AI 에이전트는 현재 대형 언어 모델과 관련된 최첨단 연구 핫스팟입니다. 그러나 AI 요원의 경우 중국 대형 모델에 대한 광범위한 평가가 부족합니다. 이 문제를 해결하기 위해 AI 에이전트의 기능에 대한 새로운 평가를 SuperClue의 새로운 목록에 추가했습니다. 이 목록은 AI 에이전트의 성능을 평가하는 데 중점을 둡니다.
| 순위 | 모델 | 기구 | 총점 | 멀티 라운드 오프닝 문제를여십시오 | 선택 능력에 대한 세 가지 객관적인 질문 | 사용 |
|---|---|---|---|---|---|---|
| - | gpt4- 터보 | Openai | 90.63 | 90.89 | 90.03 | API |
| - | GPT4 (웹 페이지) | Openai | 83.92 | 80.76 | 91.28 | 웹 페이지 |
| - | GPT4 (API) | Openai | 79.84 | 76.24 | 88.24 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | 바이두 | 79.02 | 75.00 | 88.38 | API |
| ? | Tongyi Qianwen 2.0 | 알리바바 | 76.54 | 71.78 | 87.64 | API |
| ? | 안데스크 프트 | OPPO | 75.04 | 70.01 | 86.76 | API |
| 4 | 지혜와 명확한 말 | Tsinghua & 지혜 | 74.11 | 69.91 | 83.92 | 웹 페이지 |
| 5 | Moonshot (Kimichat) | 달의 어두운면 | 71.92 | 67.25 | 82.81 | 웹 페이지 |
| - | Wen Xin Yiyan 4.0 (웹 페이지) | 바이두 | 70.28 | 62.59 | 88.22 | 웹 페이지 |
| 6 | Qwen-72B-Chat | 알리바바 | 69.69 | 62.31 | 86.90 | API |
| 7 | 시퀀스 원숭이 | 나가서 물어보세요 | 68.98 | 61.01 | 87.59 | API |
| 8 | Yi-34B-Chat | Zero Dance Tonling | 68.46 | 61.99 | 83.56 | 모델 |
| 9 | pci-transgpt | Jiadu 기술 | 68.33 | 60.41 | 86.81 | API |
| 9 | 360GPT_PRO | 360 | 68.32 | 61.36 | 84.56 | API |
| - | 클로드 2 | 인류 | 67.43 | 65.14 | 72.77 | API |
| 11 | Skylark Big Model (Bean Bun) | 사이에 | 66.35 | 58.53 | 84.60 | 웹 페이지 |
| - | 쌍둥이 자리 프로 | 65.29 | 59.33 | 79.20 | API | |
| - | GPT3.5 터보 | Openai | 61.44 | 55.63 | 74.98 | API |
| 12 | Qwen-14B-Chat | 알리바바 | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13B-Chat | Baichuan 지능형 | 61.12 | 54.45 | 76.67 | 모델 |
| 14 | xverse-13b-2-chat | Yuanxiang 기술 | 60.46 | 53.00 | 77.87 | 모델 |
| 15 | Iflytek Spark v3.0 | Iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | Minimax (문제는) | XIYU 기술 | 58.91 | 50.00 | 79.69 | 웹 페이지 |
| 17 | chatglm3-6b | Tsinghua & 지혜 | 49.50 | 42.30 | 66.31 | 모델 |
| 18 | 중국-알파카 -2-13B | 이밍 cui | 45.36 | 38.91 | 60.40 | 모델 |
| - | llama_2_13b_chat | 메타 | 37.36 | 34.91 | 43.09 | 모델 |
참고 : 최전선의 점수가 상대적으로 가까운 경우 (0.03 포인트 미만) 순위에 따라 계층 이름으로 표시됩니다.
| 순위 | 모델 | 기구 | 멀티 라운드 오프닝 문제를여십시오 | 언어와 지식 | 전문가와 기술 | 도구 사용 | 전통적인 보안 | 사용 |
|---|---|---|---|---|---|---|---|---|
| - | gpt4- 터보 | Openai | 90.89 | 90.21 | 97.00 | 100.00 | 62.75 | API |
| - | GPT4 (웹 페이지) | Openai | 80.76 | 79.49 | 82.87 | 94.63 | 64.71 | 웹 페이지 |
| - | GPT4 (API) | Openai | 76.24 | 73.96 | 81.15 | 93.34 | 53.92 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | 바이두 | 75.00 | 69.54 | 79.62 | 80.92 | 68.00 | API |
| ? | Tongyi Qianwen 2.0 | 알리바바 | 71.78 | 71.58 | 73.40 | 76.32 | 52.94 | API |
| ? | 안데스크 프트 | OPPO | 70.01 | 72.23 | 68.80 | 70.71 | 55.88 | API |
| 4 | 지혜와 명확한 말 | Tsinghua & 지혜 | 69.91 | 66.98 | 68.63 | 83.78 | 65.31 | 웹 페이지 |
| 5 | Moonshot (Kimichat) | 달의 어두운면 | 67.25 | 69.72 | 72.57 | 62.19 | 43.14 | 웹 페이지 |
| - | 클로드 2 | 인류 | 65.14 | 55.28 | 73.27 | 65.13 | 83.00 | API |
| - | Wen Xin Yiyan 4.0 (웹 페이지) | 바이두 | 62.59 | 65.05 | 63.26 | 47.37 | 64.00 | 웹 페이지 |
| 6 | Qwen-72B-Chat | 알리바바 | 62.31 | 59.43 | 65.59 | 60.67 | 52.00 | API |
| 7 | Yi-34B-Chat | Zero Dance Tonling | 61.99 | 63.90 | 54.55 | 71.05 | 65.31 | 모델 |
| 8 | 360GPT_PRO | 360 | 61.36 | 62.09 | 58.70 | 69.33 | 60.00 | API |
| 9 | 시퀀스 원숭이 | 나가서 물어보세요 | 61.01 | 65.81 | 59.99 | 56.58 | 45.10 | API |
| 10 | pci-transgpt | Jiadu 기술 | 60.41 | 60.39 | 61.56 | 64.66 | 50.98 | API |
| - | 쌍둥이 자리 프로 | 59.33 | 60.50 | 61.43 | 46.53 | 62.50 | API | |
| 11 | Skylark Big Model (Bean Bun) | 사이에 | 58.53 | 57.75 | 56.42 | 55.26 | 67.65 | 웹 페이지 |
| - | GPT3.5 터보 | Openai | 55.63 | 55.30 | 56.24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13B-Chat | Baichuan 지능형 | 54.45 | 57.35 | 48.69 | 56.58 | 54.90 | 모델 |
| 13 | xverse-13b-2-chat | Yuanxiang 기술 | 53.00 | 54.63 | 45.82 | 63.33 | 57.84 | 모델 |
| 14 | Qwen-14B-Chat | 알리바바 | 52.04 | 54.29 | 48.38 | 45.33 | 56.86 | API |
| 15 | Iflytek Spark v3.0 | Iflytek | 51.74 | 57.40 | 48.41 | 44.00 | 43.14 | API |
| 16 | Minimax (문제는) | XIYU 기술 | 50.00 | 53.54 | 45.05 | 40.13 | 50.00 | 웹 페이지 |
| 17 | chatglm3-6b | Tsinghua & 지혜 | 42.30 | 46.67 | 36.15 | 34.25 | 53.92 | 모델 |
| 18 | 중국-알파카 -2-13B | 이밍 cui | 38.91 | 46.46 | 29.35 | 27.63 | 46.94 | 모델 |
| - | llama_2_13b_chat | 메타 | 34.91 | 36.55 | 30.21 | 32.67 | 53.92 | 모델 |
| 순위 | 모델 | 기구 | 선택 점수 | 기본 능력 | 중국어 특성 | 학업 및 전문 역량 | 사용 |
|---|---|---|---|---|---|---|---|
| - | GPT4 (웹 페이지) | Openai | 91.28 | 97.62 | 82.38 | 93.85 | 웹 페이지 |
| - | gpt4- 터보 | Openai | 90.03 | 96.99 | 79.16 | 93.93 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | 바이두 | 88.38 | 91.65 | 86.18 | 87.32 | API |
| - | GPT4 (API) | Openai | 88.24 | 92.92 | 81.84 | 89.95 | API |
| - | Wen Xin Yiyan 4.0 (웹 페이지) | 바이두 | 88.22 | 76.48 | 78.32 | 57.05 | 웹 페이지 |
| ? | Tongyi Qianwen 2.0 | 알리바바 | 87.64 | 78.65 | 81.28 | 63.48 | API |
| ? | 시퀀스 원숭이 | 나가서 물어보세요 | 87.59 | 91.46 | 80.28 | 90.57 | API |
| 4 | Qwen-72B-Chat | 알리바바 | 86.90 | 92.21 | 76.65 | 91.05 | API |
| 5 | pci-transgpt | Jiadu 기술 | 86.81 | 90.76 | 80.88 | 88.42 | API |
| 6 | 안데스크 프트 | OPPO | 86.76 | 92.55 | 76.17 | 90.81 | API |
| 7 | Skylark Big Model (Bean Bun) | 사이에 | 84.60 | 88.75 | 70.89 | 93.06 | 웹 페이지 |
| 8 | 360GPT_PRO | 360 | 84.56 | 91.70 | 73.32 | 87.93 | API |
| 9 | 지혜와 명확한 말 | Tsinghua & 지혜 | 83.92 | 89.14 | 73.10 | 88.72 | 웹 페이지 |
| 10 | Yi-34B-Chat | Zero Dance Tonling | 83.56 | 86.90 | 72.81 | 90.12 | 모델 |
| 11 | Qwen-14B-Chat | 알리바바 | 82.81 | 91.14 | 68.67 | 87.31 | API |
| 12 | Moonshot (Kimichat) | 달의 어두운면 | 82.81 | 87.77 | 73.39 | 86.41 | 웹 페이지 |
| 13 | Minimax (문제는) | XIYU 기술 | 79.69 | 86.52 | 66.18 | 85.18 | 웹 페이지 |
| - | 쌍둥이 자리 프로 | 79.20 | 83.72 | 70.78 | 82.51 | API | |
| 14 | xverse-13b-2-chat | Yuanxiang 기술 | 77.87 | 84.46 | 62.96 | 83.85 | 모델 |
| 15 | Iflytek Spark v3.0 | Iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13B-Chat | Baichuan 지능형 | 76.67 | 80.61 | 63.79 | 84.50 | 모델 |
| - | GPT3.5 터보 | Openai | 74.98 | 83.78 | 62.83 | 77.60 | API |
| - | 클로드 2 | 인류 | 72.77 | 82.13 | 65.83 | 70.10 | API |
| 17 | chatglm3-6b | Tsinghua & 지혜 | 66.31 | 72.63 | 54.05 | 71.38 | 모델 |
| 18 | 중국-알파카 -2-13B | 이밍 cui | 60.40 | 70.39 | 47.75 | 62.31 | 모델 |
| - | llama_2_13b_chat | 메타 | 43.09 | 50.41 | 37.22 | 41.48 | 모델 |
| 모델 | 믿다 | 논리적 추론 | 암호 | 지식 백과 사전 | 언어 이해 | 창조를 생성하십시오 | 대화 | 역할 플레이 | 도구 사용 | 전통적인 보안 |
|---|---|---|---|---|---|---|---|---|---|---|
| gpt4- 터보 | 97.24 | 97.59 | 96.18 | 89.62 | 87.82 | 89.93 | 89.22 | 94.46 | 100.00 | 62.75 |
| GPT4 (웹 페이지) | 81.16 | 85.62 | 81.84 | 79.17 | 81.91 | 78.91 | 78.38 | 79.09 | 94.63 | 64.71 |
| Wen Xin Yiyan 4.0 (API) | 77.84 | 87.84 | 73.19 | 98.63 | 71.93 | 66.36 | 57.03 | 53.77 | 80.92 | 68.00 |
| GPT4 (API) | 77.60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75.78 | 70.17 | 93.34 | 53.92 |
| 클로드 2 | 70.10 | 80.14 | 69.57 | 62.33 | 72.32 | 39.81 | 54.76 | 47.17 | 65.13 | 83.00 |
| Tongyi Qianwen 2.0 | 70.10 | 73.29 | 76.81 | 93.15 | 71.93 | 62.73 | 68.75 | 61.32 | 76.32 | 52.94 |
| 지혜와 명확한 말 | 69.07 | 77.40 | 59.42 | 89.73 | 64.91 | 61.11 | 57.81 | 61.32 | 83.78 | 65.31 |
| Qwen-72B-Chat | 68.56 | 68.06 | 60.14 | 95.89 | 63.16 | 42.59 | 48.44 | 47.06 | 60.67 | 52.00 |
| Moonshot (Kimichat) | 68.54 | 79.65 | 69.52 | 100.00 | 66.78 | 59.65 | 61.33 | 60.84 | 62.19 | 43.14 |
| 안데스크 프트 | 62.59 | 72.26 | 71.55 | 88.36 | 74.82 | 64.23 | 68.56 | 65.19 | 70.71 | 55.88 |
| GPT3.5 터보 | 60.31 | 54.05 | 54.35 | 60.27 | 59.82 | 55.45 | 50.00 | 50.96 | 55.26 | 52.00 |
| 360GPT_PRO | 56.43 | 64.97 | 54.70 | 93.84 | 62.79 | 55.73 | 55.75 | 42.32 | 69.33 | 60.00 |
| 쌍둥이 자리 프로 | 56.32 | 58.45 | 69.53 | 73.91 | 61.61 | 54.63 | 52.54 | 59.80 | 46.53 | 62.50 |
| 시퀀스 원숭이 | 55.38 | 67.12 | 57.48 | 92.47 | 58.77 | 57.81 | 56.75 | 63.27 | 56.58 | 45.10 |
| Skylark Big Model (Bean Bun) | 54.69 | 68.92 | 45.65 | 86.99 | 56.14 | 48.18 | 53.12 | 44.34 | 55.26 | 67.65 |
| Yi-34B-Chat | 50.00 | 64.38 | 49.28 | 88.36 | 65.18 | 62.73 | 58.87 | 44.34 | 71.05 | 65.31 |
| pci-transgpt | 49.99 | 72.19 | 62.49 | 82.88 | 60.45 | 57.18 | 54.76 | 46.69 | 64.66 | 50.98 |
| Qwen-14B-Chat | 49.48 | 56.85 | 38.81 | 76.71 | 61.40 | 45.45 | 43.75 | 44.12 | 45.33 | 56.86 |
| Wen Xin Yiyan 4.0 (웹 페이지) | 48.45 | 79.73 | 61.59 | 97.26 | 65.79 | 60.91 | 53.17 | 48.11 | 47.37 | 64.00 |
| xverse-13b-2-chat | 43.30 | 50.68 | 43.48 | 72.92 | 57.02 | 47.27 | 46.88 | 49.06 | 63.33 | 57.84 |
| Minimax (문제는) | 43.30 | 61.43 | 30.43 | 100.00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50.00 |
| Baichuan2-13B-Chat | 40.62 | 66.22 | 39.23 | 78.77 | 53.51 | 52.78 | 55.47 | 46.23 | 56.58 | 54.90 |
| Iflytek Spark v3.0 | 38.54 | 57.43 | 49.26 | 83.57 | 62.28 | 47.17 | 46.83 | 47.17 | 44.00 | 43.14 |
| chatglm3-6b | 34.74 | 41.10 | 32.61 | 56.94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53.92 |
| llama_2_13b_chat | 24.74 | 40.54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53.92 |
| 중국-알파카 -2-13B | 22.40 | 45.21 | 20.45 | 51.37 | 51.75 | 39.09 | 47.66 | 42.45 | 27.63 | 46.94 |
| 순위 | 모델 | 기구 | 총점 | 열려 있는 여러 라운드의 오프닝 문제 | 고르다 능력에 대한 세 가지 객관적인 질문 |
|---|---|---|---|---|---|
| ? ️ | Qwen-72B-Chat | 알리바바 | 69.69 | 62.31 | 86.90 |
| ? | Yi-34B-Chat | Zero Dance Tonling | 68.46 | 61.99 | 83.56 |
| ? | Qwen-14B-Chat | 알리바바 | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13B-Chat | Baichuan 지능형 | 61.12 | 54.45 | 76.67 |
| 5 | xverse-13b-2-chat | Yuanxiang 기술 | 60.46 | 53.00 | 77.87 |
| 6 | chatglm3-6b | Tsinghua & 지혜 | 49.50 | 42.30 | 66.31 |
| 7 | 중국-알파카 -2-13B | 이밍 cui | 45.36 | 38.91 | 60.40 |
| - | llama_2_13b_chat | 메타 | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
이것은 입력 텍스트 정보의 의미를 이해하고 구문 분석 할 수있는 언어 능력입니다. 이 모델은 문구, 문장 및 단락의 의미를 식별하고 더 큰 텍스트 블록에서 주요 정보와 주제를 추출 할 수 있어야합니다.

참고 :이 예에서는 여러 라운드의 대화 기능을 동시에 평가할 수 있습니다.
AI 에이전트는 현재 대형 언어 모델과 관련된 최첨단 연구 핫스팟입니다.
두 가지 주요 능력에서 AI 에이전트의 성능을 평가하는 데 중점을 둡니다. [도구 사용] 및 [작업 계획]

이것은 답의 일관성을 유지하기 위해 이전 대화 정보를 이해하고 기억 해야하는 언어 능력입니다. 여기에는 대화의 전반적인 프로세스와 맥락을 이해하거나 해당 대화를 생성하는 것이 포함됩니다.

이것은 기사, 카피 라이팅, 단편 소설 및시와 같은 새로운 텍스트 내용을 만들 수있는 언어 능력입니다. 여기에는 창의적인 언어 사용이 포함되며 스타일, 맥락 및 대상 독자도 고려합니다.

이것은 백과 사전과 같은 지식 정보를 제공 할 수있는 지식 능력입니다. 여기에는 광범위한 주제에 대한 질문을 이해하고 답변하고 정확하고 상세하며 최신 정보를 제공하는 것이 포함됩니다.

이것은 프로그래밍 코드를 이해하고 생성하는 전문적인 능력입니다. 여기에는 여러 프로그래밍 언어의 구문, 구조 및 습관을 이해하고 프로그래밍 문제를 해결하는 방법이 포함됩니다.

참고 :이 예에서는 여러 라운드의 대화 기능을 동시에 평가할 수 있습니다.
이것은 논리적 원칙을 추론하고 적용 할 수있는 전문적인 능력입니다. 여기에는 문제 분석, 문제 식별 및 추론이 포함됩니다.

이것은 첨가, 뺄셈, 곱셈 및 분할, 훨씬 더 복잡한 수학적 문제와 같은 수학적 연산을 수행 할 수있는 전문적인 능력입니다. 여기에는 수학적 문제의 표현과 단계별 문제를 해결하는 방법을 이해하는 것이 포함됩니다.

참고 :이 예에서는 여러 라운드의 대화 기능을 동시에 평가할 수 있습니다.
이것은 특정 시뮬레이션 된 환경이나 시나리오에서 역할을 수행 할 수있는 지각 적 능력입니다. 여기에는 특정한 캐릭터의 행동, 말하기 스타일 및 특정 상황에서 적절한 반응을 이해하는 것이 포함됩니다.

이는 문제 또는 피해를 유발할 수있는 컨텐츠 생성을 방지 할 수있는 보안 기능입니다. 여기에는 민감하거나 부적절한 컨텐츠가 포함 된 요청을 식별하고 피하고 사용자의 개인 정보 및 보안 정책을 준수하는 것이 포함됩니다.

목록은 정기적으로 업데이트되며 더 많은 중국 모델이 포함됩니다. 큰 모델 평가에 관심이있는 개인과 기관은 연락과 의사 소통을 환영합니다.
