Chinesische Allgemeinmodell umfassende Benchmark Superclue
【Langya Bang】 -Chinese Big Model Special Arena, die führenden Modelle, die Ihnen wichtig sind, sind alle hier
"Chinese Big Model Benchmark Evaluation April 2024 Bericht"
Die neueste Liste der Superclue Chinese Big Model Evaluation Benchmarks (Mai 2024)
Offizielle Website -Adresse: www.cluebenchmarks.com/superclue.html
Technischer Bericht: Superclue: Ein umfassendes chinesisches Großsprachmodell -Benchmark
[2023-12-27] "Chinesische Big Model Benchmark-Bewertungsbericht 2023 Jahresbericht" veröffentlicht "
【2023-12-28】 Release Superclue-Dezember 2023 Liste
【2023-10-19】 Superclue-Agent: Agent Chinese Native Task Evaluation Benchmark
【2023-9-12】 Superclue-Sicherheit: Chinese Big Model Multi-Runden-Konfrontation Sicherheitsbenchmark
[2023-9-26] veröffentlichte Superclue die September-Liste chinesischer Modelle.
Superclue ist ein umfassender Benchmark für große Modellbewertungen.
Im Vergleich zum letzten Monat wurde der AI -Agent intelligente Körper hinzugefügt



AI-Agenten sind derzeit innovative Forschungs-Hotspots im Zusammenhang mit großen Sprachmodellen. Für AI -Agenten fehlt jedoch eine umfassende Bewertung chinesischer großer Modelle. Um dieses Problem zu lösen, haben wir die neue Liste von Superclue eine neue Bewertung der Fähigkeiten von AI -Agenten hinzugefügt. Diese Liste konzentriert sich auf die Bewertung der Leistung von AI -Agenten in zwei wichtigen Fähigkeiten, [Tools -Nutzung] und [Aufgabenplanung].
| Rang | Modell | Mechanismus | Gesamtpunkte | Öffnen Sie das Multi-Runden-Öffnungsproblem | Drei objektive Fragen zur OPT -Fähigkeit | verwenden |
|---|---|---|---|---|---|---|
| - - | Gpt4-turbo | Openai | 90.63 | 90.89 | 90.03 | API |
| - - | GPT4 (Webseite) | Openai | 83,92 | 80.76 | 91.28 | Webseite |
| - - | GPT4 (API) | Openai | 79,84 | 76,24 | 88.24 | API |
| ? Euen | Wen Xin Yiyan 4.0 (API) | Baidu | 79.02 | 75,00 | 88.38 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 76,54 | 71.78 | 87.64 | API |
| ? | Andesgpt | Oppo | 75.04 | 70.01 | 86,76 | API |
| 4 | Weisheit und klare Worte | Tsinghua & Weisheit | 74.11 | 69.91 | 83,92 | Webseite |
| 5 | Mondshot (Kimichat) | Die dunkle Seite des Mondes | 71,92 | 67,25 | 82.81 | Webseite |
| - - | Wen Xin Yiyan 4.0 (Webseite) | Baidu | 70,28 | 62,59 | 88.22 | Webseite |
| 6 | QWEN-72B-CHAT | Alibaba | 69.69 | 62.31 | 86.90 | API |
| 7 | Sequenzaffen | Ausgehen und fragen | 68,98 | 61.01 | 87,59 | API |
| 8 | Yi-34b-chat | Zehntausend Dinge | 68.46 | 61.99 | 83,56 | Modell |
| 9 | Pci-transgpt | Jiadu -Technologie | 68.33 | 60.41 | 86.81 | API |
| 9 | 360GPT_PRO | 360 | 68.32 | 61.36 | 84,56 | API |
| - - | Claude2 | Anthropisch | 67.43 | 65.14 | 72.77 | API |
| 11 | Skylark Big Model (Bohnenbrötchen) | Bytedance | 66,35 | 58.53 | 84.60 | Webseite |
| - - | Gemini-Pro | 65.29 | 59.33 | 79.20 | API | |
| - - | GPT3.5-Turbo | Openai | 61.44 | 55.63 | 74,98 | API |
| 12 | QWEN-14B-CHAT | Alibaba | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13b-Chat | Baichuan intelligent | 61.12 | 54.45 | 76,67 | Modell |
| 14 | Xverse-13b-2-Chat | Yuanxiang -Technologie | 60.46 | 53,00 | 77,87 | Modell |
| 15 | Iflytek Spark v3.0 | Iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | Minimax (wie für Angelegenheiten) | XIYU -Technologie | 58.91 | 50.00 | 79,69 | Webseite |
| 17 | Chatglm3-6b | Tsinghua & Weisheit | 49,50 | 42.30 | 66.31 | Modell |
| 18 | Chinesisch-Alpaka-2-13b | yiming cui | 45,36 | 38,91 | 60.40 | Modell |
| - - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 | Modell |
HINWEIS: Wenn die Punktzahlen im Vordergrund relativ eng sind (weniger als 0,03 Punkte), werden sie beim Ranking als abgestufter Name markiert.
| Rang | Modell | Mechanismus | Öffnen Sie das Multi-Runden-Öffnungsproblem | Sprache und Wissen | Professionelle und Fähigkeiten | Werkzeugverbrauch | Traditionelle Sicherheit | verwenden |
|---|---|---|---|---|---|---|---|---|
| - - | Gpt4-turbo | Openai | 90.89 | 90.21 | 97.00 | 100.00 | 62.75 | API |
| - - | GPT4 (Webseite) | Openai | 80.76 | 79,49 | 82.87 | 94.63 | 64.71 | Webseite |
| - - | GPT4 (API) | Openai | 76,24 | 73,96 | 81.15 | 93.34 | 53,92 | API |
| ? Euen | Wen Xin Yiyan 4.0 (API) | Baidu | 75,00 | 69,54 | 79,62 | 80.92 | 68.00 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 71.78 | 71.58 | 73,40 | 76,32 | 52,94 | API |
| ? | Andesgpt | Oppo | 70.01 | 72.23 | 68.80 | 70.71 | 55,88 | API |
| 4 | Weisheit und klare Worte | Tsinghua & Weisheit | 69.91 | 66,98 | 68,63 | 83.78 | 65.31 | Webseite |
| 5 | Mondshot (Kimichat) | Die dunkle Seite des Mondes | 67,25 | 69.72 | 72,57 | 62.19 | 43.14 | Webseite |
| - - | Claude2 | Anthropisch | 65.14 | 55.28 | 73,27 | 65.13 | 83,00 | API |
| - - | Wen Xin Yiyan 4.0 (Webseite) | Baidu | 62,59 | 65.05 | 63.26 | 47.37 | 64.00 | Webseite |
| 6 | QWEN-72B-CHAT | Alibaba | 62.31 | 59.43 | 65,59 | 60.67 | 52.00 | API |
| 7 | Yi-34b-chat | Zehntausend Dinge | 61.99 | 63,90 | 54,55 | 71.05 | 65.31 | Modell |
| 8 | 360GPT_PRO | 360 | 61.36 | 62.09 | 58.70 | 69.33 | 60.00 | API |
| 9 | Sequenzaffen | Ausgehen und fragen | 61.01 | 65,81 | 59.99 | 56,58 | 45.10 | API |
| 10 | Pci-transgpt | Jiadu -Technologie | 60.41 | 60.39 | 61.56 | 64,66 | 50,98 | API |
| - - | Gemini-Pro | 59.33 | 60.50 | 61.43 | 46,53 | 62.50 | API | |
| 11 | Skylark Big Model (Bohnenbrötchen) | Bytedance | 58.53 | 57.75 | 56.42 | 55.26 | 67,65 | Webseite |
| - - | GPT3.5-Turbo | Openai | 55.63 | 55.30 | 56,24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13b-Chat | Baichuan intelligent | 54.45 | 57.35 | 48.69 | 56,58 | 54,90 | Modell |
| 13 | Xverse-13b-2-Chat | Yuanxiang -Technologie | 53,00 | 54,63 | 45,82 | 63.33 | 57.84 | Modell |
| 14 | QWEN-14B-CHAT | Alibaba | 52.04 | 54.29 | 48.38 | 45,33 | 56,86 | API |
| 15 | Iflytek Spark v3.0 | Iflytek | 51.74 | 57.40 | 48.41 | 44.00 | 43.14 | API |
| 16 | Minimax (wie für Angelegenheiten) | XIYU -Technologie | 50.00 | 53,54 | 45,05 | 40.13 | 50.00 | Webseite |
| 17 | Chatglm3-6b | Tsinghua & Weisheit | 42.30 | 46,67 | 36.15 | 34.25 | 53,92 | Modell |
| 18 | Chinesisch-Alpaka-2-13b | yiming cui | 38,91 | 46,46 | 29.35 | 27.63 | 46,94 | Modell |
| - - | Llama_2_13b_chat | Meta | 34.91 | 36.55 | 30.21 | 32.67 | 53,92 | Modell |
| Rang | Modell | Mechanismus | Opt -Score | Grundfähigkeiten | Chinesische Eigenschaften | Akademische und berufliche Kompetenz | verwenden |
|---|---|---|---|---|---|---|---|
| - - | GPT4 (Webseite) | Openai | 91.28 | 97.62 | 82.38 | 93,85 | Webseite |
| - - | Gpt4-turbo | Openai | 90.03 | 96,99 | 79.16 | 93.93 | API |
| ? Euen | Wen Xin Yiyan 4.0 (API) | Baidu | 88.38 | 91.65 | 86.18 | 87.32 | API |
| - - | GPT4 (API) | Openai | 88.24 | 92.92 | 81.84 | 89,95 | API |
| - - | Wen Xin Yiyan 4.0 (Webseite) | Baidu | 88.22 | 76,48 | 78,32 | 57.05 | Webseite |
| ? | Tongyi Qianwen 2.0 | Alibaba | 87.64 | 78,65 | 81.28 | 63,48 | API |
| ? | Sequenzaffen | Ausgehen und fragen | 87,59 | 91.46 | 80.28 | 90.57 | API |
| 4 | QWEN-72B-CHAT | Alibaba | 86.90 | 92.21 | 76,65 | 91.05 | API |
| 5 | Pci-transgpt | Jiadu -Technologie | 86.81 | 90.76 | 80.88 | 88.42 | API |
| 6 | Andesgpt | Oppo | 86,76 | 92.55 | 76.17 | 90.81 | API |
| 7 | Skylark Big Model (Bohnenbrötchen) | Bytedance | 84.60 | 88.75 | 70,89 | 93.06 | Webseite |
| 8 | 360GPT_PRO | 360 | 84,56 | 91.70 | 73,32 | 87.93 | API |
| 9 | Weisheit und klare Worte | Tsinghua & Weisheit | 83,92 | 89.14 | 73.10 | 88.72 | Webseite |
| 10 | Yi-34b-chat | Zehntausend Dinge | 83,56 | 86.90 | 72,81 | 90.12 | Modell |
| 11 | QWEN-14B-CHAT | Alibaba | 82.81 | 91.14 | 68,67 | 87.31 | API |
| 12 | Mondshot (Kimichat) | Die dunkle Seite des Mondes | 82.81 | 87.77 | 73.39 | 86.41 | Webseite |
| 13 | Minimax (wie für Angelegenheiten) | XIYU -Technologie | 79,69 | 86,52 | 66.18 | 85.18 | Webseite |
| - - | Gemini-Pro | 79.20 | 83.72 | 70,78 | 82,51 | API | |
| 14 | Xverse-13b-2-Chat | Yuanxiang -Technologie | 77,87 | 84.46 | 62,96 | 83,85 | Modell |
| 15 | Iflytek Spark v3.0 | Iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13b-Chat | Baichuan intelligent | 76,67 | 80.61 | 63.79 | 84,50 | Modell |
| - - | GPT3.5-Turbo | Openai | 74,98 | 83.78 | 62,83 | 77,60 | API |
| - - | Claude2 | Anthropisch | 72.77 | 82.13 | 65,83 | 70.10 | API |
| 17 | Chatglm3-6b | Tsinghua & Weisheit | 66.31 | 72.63 | 54.05 | 71.38 | Modell |
| 18 | Chinesisch-Alpaka-2-13b | yiming cui | 60.40 | 70.39 | 47,75 | 62.31 | Modell |
| - - | Llama_2_13b_chat | Meta | 43.09 | 50.41 | 37.22 | 41.48 | Modell |
| Modell | berechnen | Logische Argumentation | Code | Wissenszyklopädie | Sprachverständnis | Schöpfung erzeugen | Dialog | Rollenspiel | Werkzeugverbrauch | Traditionelle Sicherheit |
|---|---|---|---|---|---|---|---|---|---|---|
| Gpt4-turbo | 97.24 | 97.59 | 96.18 | 89,62 | 87,82 | 89,93 | 89,22 | 94.46 | 100.00 | 62.75 |
| GPT4 (Webseite) | 81.16 | 85.62 | 81.84 | 79.17 | 81.91 | 78,91 | 78,38 | 79.09 | 94.63 | 64.71 |
| Wen Xin Yiyan 4.0 (API) | 77,84 | 87,84 | 73.19 | 98.63 | 71.93 | 66.36 | 57.03 | 53.77 | 80.92 | 68.00 |
| GPT4 (API) | 77.60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75,78 | 70.17 | 93.34 | 53,92 |
| Claude2 | 70.10 | 80.14 | 69,57 | 62.33 | 72.32 | 39,81 | 54.76 | 47.17 | 65.13 | 83,00 |
| Tongyi Qianwen 2.0 | 70.10 | 73,29 | 76,81 | 93.15 | 71.93 | 62.73 | 68,75 | 61.32 | 76,32 | 52,94 |
| Weisheit und klare Worte | 69.07 | 77,40 | 59,42 | 89.73 | 64.91 | 61.11 | 57.81 | 61.32 | 83.78 | 65.31 |
| QWEN-72B-CHAT | 68,56 | 68.06 | 60.14 | 95.89 | 63.16 | 42,59 | 48.44 | 47.06 | 60.67 | 52.00 |
| Mondshot (Kimichat) | 68,54 | 79,65 | 69,52 | 100.00 | 66,78 | 59,65 | 61.33 | 60.84 | 62.19 | 43.14 |
| Andesgpt | 62,59 | 72.26 | 71,55 | 88.36 | 74,82 | 64.23 | 68,56 | 65.19 | 70.71 | 55,88 |
| GPT3.5-Turbo | 60.31 | 54.05 | 54,35 | 60.27 | 59,82 | 55.45 | 50.00 | 50.96 | 55.26 | 52.00 |
| 360GPT_PRO | 56.43 | 64,97 | 54.70 | 93.84 | 62.79 | 55.73 | 55.75 | 42.32 | 69.33 | 60.00 |
| Gemini-Pro | 56.32 | 58.45 | 69,53 | 73,91 | 61.61 | 54,63 | 52,54 | 59,80 | 46,53 | 62.50 |
| Sequenzaffen | 55.38 | 67.12 | 57.48 | 92.47 | 58.77 | 57.81 | 56,75 | 63.27 | 56,58 | 45.10 |
| Skylark Big Model (Bohnenbrötchen) | 54.69 | 68,92 | 45,65 | 86,99 | 56.14 | 48.18 | 53.12 | 44,34 | 55.26 | 67,65 |
| Yi-34b-chat | 50.00 | 64,38 | 49,28 | 88.36 | 65.18 | 62.73 | 58.87 | 44,34 | 71.05 | 65.31 |
| Pci-transgpt | 49,99 | 72.19 | 62.49 | 82.88 | 60.45 | 57.18 | 54.76 | 46.69 | 64,66 | 50,98 |
| QWEN-14B-CHAT | 49,48 | 56,85 | 38.81 | 76,71 | 61.40 | 45,45 | 43.75 | 44.12 | 45,33 | 56,86 |
| Wen Xin Yiyan 4.0 (Webseite) | 48.45 | 79,73 | 61.59 | 97.26 | 65.79 | 60.91 | 53.17 | 48.11 | 47.37 | 64.00 |
| Xverse-13b-2-Chat | 43.30 | 50.68 | 43.48 | 72,92 | 57.02 | 47,27 | 46,88 | 49.06 | 63.33 | 57.84 |
| Minimax (wie für Angelegenheiten) | 43.30 | 61.43 | 30.43 | 100.00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50.00 |
| Baichuan2-13b-Chat | 40.62 | 66,22 | 39.23 | 78,77 | 53,51 | 52.78 | 55.47 | 46.23 | 56,58 | 54,90 |
| Iflytek Spark v3.0 | 38,54 | 57.43 | 49,26 | 83,57 | 62.28 | 47.17 | 46,83 | 47.17 | 44.00 | 43.14 |
| Chatglm3-6b | 34.74 | 41.10 | 32.61 | 56,94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53,92 |
| Llama_2_13b_chat | 24.74 | 40.54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53,92 |
| Chinesisch-Alpaka-2-13b | 22.40 | 45,21 | 20.45 | 51.37 | 51.75 | 39.09 | 47,66 | 42.45 | 27.63 | 46,94 |
| Rang | Modell | Mechanismus | Gesamtpunkte | OFFEN Mehrere Runden von Öffnungsfragen | Opt Drei objektive Fragen zu Fähigkeiten |
|---|---|---|---|---|---|
| ? Euen | QWEN-72B-CHAT | Alibaba | 69.69 | 62.31 | 86.90 |
| ? | Yi-34b-chat | Zehntausend Dinge | 68.46 | 61.99 | 83,56 |
| ? | QWEN-14B-CHAT | Alibaba | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13b-Chat | Baichuan intelligent | 61.12 | 54.45 | 76,67 |
| 5 | Xverse-13b-2-Chat | Yuanxiang -Technologie | 60.46 | 53,00 | 77,87 |
| 6 | Chatglm3-6b | Tsinghua & Weisheit | 49,50 | 42.30 | 66.31 |
| 7 | Chinesisch-Alpaka-2-13b | yiming cui | 45,36 | 38,91 | 60.40 |
| - - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
Dies ist eine Sprachfähigkeit, die die Bedeutung von Eingabetextinformationen verstehen und analysieren kann. Das Modell muss in der Lage sein, die Bedeutung von Phrasen, Sätzen und Absätzen zu identifizieren und gleichzeitig wichtige Informationen und Themen aus größeren Textblöcken zu extrahieren.

Hinweis: In diesem Beispiel können mehrere Runden von Dialogfunktionen gleichzeitig bewertet werden.
AI-Agenten sind derzeit innovative Forschungs-Hotspots im Zusammenhang mit großen Sprachmodellen.
Konzentrieren Sie sich auf die Bewertung der Leistung von AI -Agenten in zwei wichtigen Fähigkeiten: [Werkzeugverwendung] und [Aufgabenplanung]

Dies ist eine Sprachfähigkeit, die das Verständnis und das Erinnern an die vorherigen Konversationsinformationen erfordert, um die Kohärenz in den Antworten aufrechtzuerhalten. Dies beinhaltet das Verständnis des Gesamtprozesses und des Kontextes der Konversation oder das Generieren entsprechender Gespräche.

Dies ist eine Sprachfähigkeit, die neue Textinhalte wie Artikel, Texter, Kurzgeschichten und Gedichte erstellen kann. Dies beinhaltet den kreativen Gebrauch von Sprache und berücksichtigt gleichzeitig Stil-, Kontext- und Zielleser.

Dies ist eine Wissensfähigkeit, die Wissensinformationen wie eine Enzyklopädie liefern kann. Dies beinhaltet das Verständnis und die Beantwortung von Fragen zu einer Vielzahl von Themen sowie die Bereitstellung genauer, detaillierter und aktueller Informationen.

Dies ist eine professionelle Fähigkeit, Programmiercode zu verstehen und zu generieren. Dies beinhaltet das Verständnis der Syntax, Struktur und Gewohnheiten mehrerer Programmiersprachen und der Lösung von Programmierproblemen.

Hinweis: In diesem Beispiel können mehrere Runden von Dialogfunktionen gleichzeitig bewertet werden.
Dies ist eine professionelle Fähigkeit, logische Prinzipien auf die Vernunft zu verstehen und anzuwenden. Dies beinhaltet die Analyse von Problemen, die Ermittlung von Problemen und das Denken.

Dies ist eine professionelle Fähigkeit, die es ihm ermöglicht, mathematische Operationen wie Addition, Subtraktion, Multiplikation und Teilung sowie noch komplexere mathematische Probleme auszuführen. Dies beinhaltet das Verständnis des Ausdrucks mathematischer Probleme und der Lösung von Schritt für Schritt.

Hinweis: In diesem Beispiel können mehrere Runden von Dialogfunktionen gleichzeitig bewertet werden.
Dies ist eine Wahrnehmungsfähigkeit, die es ihm ermöglicht, in einer bestimmten simulierten Umgebung oder einem bestimmten Szenario eine Rolle zu spielen. Dies beinhaltet das Verständnis des Verhaltens eines bestimmten Charakters, eines Sprechstils und der angemessenen Antworten in einer bestimmten Situation.

Dies ist eine Sicherheitsfähigkeit, um die Erzeugung von Inhalten zu verhindern, die Probleme oder Schäden verursachen können. Dies beinhaltet die Identifizierung und Vermeidung von Anfragen, die sensible oder unangemessene Inhalte enthalten sowie die Datenschutz- und Sicherheitsrichtlinien des Benutzers einhalten.

Die Liste wird regelmäßig aktualisiert und mehr verfügbare chinesische Modelle werden enthalten. Einzelpersonen und Institutionen, die an einer großen Modellbewertung interessiert sind, können sich wenden und kommunizieren.
