Unduh SuperCLUE - Unduh Kode Sumber SuperCLUE

SuperCLUE

Kode sumber lainnya

1.0.0

Unduh

Superclue

Model Umum Cina Superclue Benchmark Komprehensif

【Langya Bang】 -Chinese Big Big Model Arena Khusus, Model Terkemuka Yang Anda Peduli Ada Semua Di Sini

"Evaluasi Benchmark Model Besar Cina April 2024 Laporan"

Daftar terbaru dari tolok ukur evaluasi model besar superclue (Mei 2024)

Alamat situs web resmi: www.cluebenchmarks.com/superclue.html

Laporan Teknis: Superclue: Benchmark Model Bahasa Besar Tiongkok Komprehensif

[2023-12-27] "Laporan Evaluasi Benchmark Model Besar Cina 2023 Laporan Tahunan" Dirilis

【2023-12-28】 Rilis Superclue-Desember 2023 Daftar

【2023-10-19】 Superclue-Agent: Agen Tolok Ukur Evaluasi Tugas Asli Cina

【2023-9-12】 Superclue-Safety: Chinese Big Model Benchmark Konfrontasi Multi-Besar Model

[2023-9-26], Superclue merilis daftar model Cina September.

Superclue adalah tolok ukur evaluasi model besar yang komprehensif.

Dibandingkan dengan bulan lalu, AI Agen Intelligent Body ditambahkan

Diagram Struktur Evaluasi Kemampuan Superclue

Rencana Evaluasi Multi-Dimensi Superclue

Mengapa kemampuan agen agen AI baru ditambahkan?

Agen AI saat ini adalah hotspot penelitian mutakhir yang terkait dengan model bahasa besar. Namun, untuk agen AI, evaluasi ekstensif model besar Cina kurang. Untuk mengatasi masalah ini, kami telah menambahkan evaluasi baru dari kemampuan agen AI ke daftar baru Superclue. Daftar ini akan fokus pada evaluasi kinerja agen AI dalam dua kemampuan utama, [penggunaan alat] dan [perencanaan tugas].

Daftar Peringkat Keseluruhan Superclue (Desember 2023)

Peringkat	Model	mekanisme	Total Poin	Buka masalah pembukaan multi-putaran	Tiga pertanyaan obyektif tentang kemampuan opt	menggunakan
-	GPT4-TURBO	Openai	90.63	90.89	90.03	API
-	GPT4 (halaman web)	Openai	83.92	80.76	91.28	Halaman web
-	GPT4 (API)	Openai	79.84	76.24	88.24	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	79.02	75.00	88.38	API
?	Tongyi Qianwen 2.0	Alibaba	76.54	71.78	87.64	API
?	Andesgpt	Oppo	75.04	70.01	86.76	API
4	Kebijaksanaan dan kata -kata yang jelas	Tsinghua & Kebijaksanaan	74.11	69.91	83.92	Halaman web
5	Moonshot (kimichat)	Sisi gelap bulan	71.92	67.25	82.81	Halaman web
-	Wen Xin Yiyan 4.0 (halaman web)	Baidu	70.28	62.59	88.22	Halaman web
6	QWEN-72B-CHAT	Alibaba	69.69	62.31	86.90	API
7	Urutan monyet	Keluar dan tanyakan	68.98	61.01	87.59	API
8	Yi-34b-chat	Nol sepuluh ribu hal	68.46	61.99	83.56	Model
9	Pci-transgpt	Teknologi Jiadu	68.33	60.41	86.81	API
9	360gpt_pro	360	68.32	61.36	84.56	API
-	Claude2	Antropik	67.43	65.14	72.77	API
11	Skylark Big Model (Bean Bun)	Bytedance	66.35	58.53	84.60	Halaman web
-	Gemini-Pro	Google	65.29	59.33	79.20	API
-	Gpt3.5-turbo	Openai	61.44	55.63	74.98	API
12	Qwen-14b-chat	Alibaba	61.27	52.04	82.81	API
13	Baichuan2-13b-CHAT	Baichuan Intelligent	61.12	54.45	76.67	Model
14	Xverse-13b-2-chat	Teknologi Yuanxiang	60.46	53.00	77.87	Model
15	Iflytek Spark v3.0	Iflytek	59.33	51.74	77.03	API
16	Minimax (untuk masalah)	Teknologi Xiyu	58.91	50.00	79.69	Halaman web
17	Chatglm3-6b	Tsinghua & Kebijaksanaan	49.50	42.30	66.31	Model
18	China-Alpaca-2-13b	yiming cui	45.36	38.91	60.40	Model
-	Llama_2_13b_chat	Meta	37.36	34.91	43.09	Model

Catatan: Jika skor di garis depan relatif dekat (kurang dari 0,03 poin), mereka akan ditandai sebagai nama berjenjang saat peringkat.

Peringkat Masalah Terbuka Multi-Buka Superclue (Desember 2023)

Peringkat	Model	mekanisme	Buka masalah pembukaan multi-putaran	Bahasa dan pengetahuan	Profesional dan keterampilan	Penggunaan alat	Keamanan tradisional	menggunakan
-	GPT4-TURBO	Openai	90.89	90.21	97.00	100.00	62.75	API
-	GPT4 (halaman web)	Openai	80.76	79.49	82.87	94.63	64.71	Halaman web
-	GPT4 (API)	Openai	76.24	73.96	81.15	93.34	53.92	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	75.00	69.54	79.62	80.92	68.00	API
?	Tongyi Qianwen 2.0	Alibaba	71.78	71.58	73.40	76.32	52.94	API
?	Andesgpt	Oppo	70.01	72.23	68.80	70.71	55.88	API
4	Kebijaksanaan dan kata -kata yang jelas	Tsinghua & Kebijaksanaan	69.91	66.98	68.63	83.78	65.31	Halaman web
5	Moonshot (kimichat)	Sisi gelap bulan	67.25	69.72	72.57	62.19	43.14	Halaman web
-	Claude2	Antropik	65.14	55.28	73.27	65.13	83.00	API
-	Wen Xin Yiyan 4.0 (halaman web)	Baidu	62.59	65.05	63.26	47.37	64.00	Halaman web
6	QWEN-72B-CHAT	Alibaba	62.31	59.43	65.59	60.67	52.00	API
7	Yi-34b-chat	Nol sepuluh ribu hal	61.99	63.90	54.55	71.05	65.31	Model
8	360gpt_pro	360	61.36	62.09	58.70	69.33	60.00	API
9	Urutan monyet	Keluar dan tanyakan	61.01	65.81	59.99	56.58	45.10	API
10	Pci-transgpt	Teknologi Jiadu	60.41	60.39	61.56	64.66	50.98	API
-	Gemini-Pro	Google	59.33	60.50	61.43	46.53	62.50	API
11	Skylark Big Model (Bean Bun)	Bytedance	58.53	57.75	56.42	55.26	67.65	Halaman web
-	Gpt3.5-turbo	Openai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13b-CHAT	Baichuan Intelligent	54.45	57.35	48.69	56.58	54.90	Model
13	Xverse-13b-2-chat	Teknologi Yuanxiang	53.00	54.63	45.82	63.33	57.84	Model
14	Qwen-14b-chat	Alibaba	52.04	54.29	48.38	45.33	56.86	API
15	Iflytek Spark v3.0	Iflytek	51.74	57.40	48.41	44.00	43.14	API
16	Minimax (untuk masalah)	Teknologi Xiyu	50.00	53.54	45.05	40.13	50.00	Halaman web
17	Chatglm3-6b	Tsinghua & Kebijaksanaan	42.30	46.67	36.15	34.25	53.92	Model
18	China-Alpaca-2-13b	yiming cui	38.91	46.46	29.35	27.63	46.94	Model
-	Llama_2_13b_chat	Meta	34.91	36.55	30.21	32.67	53.92	Model

Peringkat Pertanyaan Objektif untuk Tiga Kemampuan Utama Superclue-Opt (Desember 2023)

Peringkat	Model	mekanisme	Skor opt	Kemampuan dasar	Karakteristik Cina	Kompetensi akademik dan profesional	menggunakan
-	GPT4 (halaman web)	Openai	91.28	97.62	82.38	93.85	Halaman web
-	GPT4-TURBO	Openai	90.03	96.99	79.16	93.93	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	88.38	91.65	86.18	87.32	API
-	GPT4 (API)	Openai	88.24	92.92	81.84	89.95	API
-	Wen Xin Yiyan 4.0 (halaman web)	Baidu	88.22	76.48	78.32	57.05	Halaman web
?	Tongyi Qianwen 2.0	Alibaba	87.64	78.65	81.28	63.48	API
?	Urutan monyet	Keluar dan tanyakan	87.59	91.46	80.28	90.57	API
4	QWEN-72B-CHAT	Alibaba	86.90	92.21	76.65	91.05	API
5	Pci-transgpt	Teknologi Jiadu	86.81	90.76	80.88	88.42	API
6	Andesgpt	Oppo	86.76	92.55	76.17	90.81	API
7	Skylark Big Model (Bean Bun)	Bytedance	84.60	88.75	70.89	93.06	Halaman web
8	360gpt_pro	360	84.56	91.70	73.32	87.93	API
9	Kebijaksanaan dan kata -kata yang jelas	Tsinghua & Kebijaksanaan	83.92	89.14	73.10	88.72	Halaman web
10	Yi-34b-chat	Nol sepuluh ribu hal	83.56	86.90	72.81	90.12	Model
11	Qwen-14b-chat	Alibaba	82.81	91.14	68.67	87.31	API
12	Moonshot (kimichat)	Sisi gelap bulan	82.81	87.77	73.39	86.41	Halaman web
13	Minimax (untuk masalah)	Teknologi Xiyu	79.69	86.52	66.18	85.18	Halaman web
-	Gemini-Pro	Google	79.20	83.72	70.78	82.51	API
14	Xverse-13b-2-chat	Teknologi Yuanxiang	77.87	84.46	62.96	83.85	Model
15	Iflytek Spark v3.0	Iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-CHAT	Baichuan Intelligent	76.67	80.61	63.79	84.50	Model
-	Gpt3.5-turbo	Openai	74.98	83.78	62.83	77.60	API
-	Claude2	Antropik	72.77	82.13	65.83	70.10	API
17	Chatglm3-6b	Tsinghua & Kebijaksanaan	66.31	72.63	54.05	71.38	Model
18	China-Alpaca-2-13b	yiming cui	60.40	70.39	47.75	62.31	Model
-	Llama_2_13b_chat	Meta	43.09	50.41	37.22	41.48	Model

Superclue Top Basic kemampuan peringkat (Desember 2023)

Model	menghitung	Penalaran logis	Kode	Ensiklopedia Pengetahuan	Pemahaman bahasa	Menghasilkan kreasi	dialog	permainan peran	Penggunaan alat	Keamanan tradisional
GPT4-TURBO	97.24	97.59	96.18	89.62	87.82	89.93	89.22	94.46	100.00	62.75
GPT4 (halaman web)	81.16	85.62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
Wen Xin Yiyan 4.0 (API)	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4 (API)	77.60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53.92
Claude2	70.10	80.14	69.57	62.33	72.32	39.81	54.76	47.17	65.13	83.00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
Kebijaksanaan dan kata -kata yang jelas	69.07	77.40	59.42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
QWEN-72B-CHAT	68.56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60.67	52.00
Moonshot (kimichat)	68.54	79.65	69.52	100.00	66.78	59.65	61.33	60.84	62.19	43.14
Andesgpt	62.59	72.26	71.55	88.36	74.82	64.23	68.56	65.19	70.71	55.88
Gpt3.5-turbo	60.31	54.05	54.35	60.27	59.82	55.45	50.00	50.96	55.26	52.00
360gpt_pro	56.43	64.97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
Gemini-Pro	56.32	58.45	69.53	73.91	61.61	54.63	52.54	59.80	46.53	62.50
Urutan monyet	55.38	67.12	57.48	92.47	58.77	57.81	56.75	63.27	56.58	45.10
Skylark Big Model (Bean Bun)	54.69	68.92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67.65
Yi-34b-chat	50.00	64.38	49.28	88.36	65.18	62.73	58.87	44.34	71.05	65.31
Pci-transgpt	49.99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64.66	50.98
Qwen-14b-chat	49.48	56.85	38.81	76.71	61.40	45.45	43.75	44.12	45.33	56.86
Wen Xin Yiyan 4.0 (halaman web)	48.45	79.73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
Xverse-13b-2-chat	43.30	50.68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57.84
Minimax (untuk masalah)	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13b-CHAT	40.62	66.22	39.23	78.77	53.51	52.78	55.47	46.23	56.58	54.90
Iflytek Spark v3.0	38.54	57.43	49.26	83.57	62.28	47.17	46.83	47.17	44.00	43.14
Chatglm3-6b	34.74	41.10	32.61	56.94	54.39	38.18	41.41	42.45	34.25	53.92
Llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53.92
China-Alpaca-2-13b	22.40	45.21	20.45	51.37	51.75	39.09	47.66	42.45	27.63	46.94

Peringkat Model Open Source Superclue (Desember 2023)

Peringkat	Model	mekanisme	Total Poin	MEMBUKA Beberapa putaran masalah pembukaan	MEMILIH Tiga pertanyaan obyektif tentang kemampuan
? ️	QWEN-72B-CHAT	Alibaba	69.69	62.31	86.90
?	Yi-34b-chat	Nol sepuluh ribu hal	68.46	61.99	83.56
?	Qwen-14b-chat	Alibaba	61.27	52.04	82.81
4	Baichuan2-13b-CHAT	Baichuan Intelligent	61.12	54.45	76.67
5	Xverse-13b-2-chat	Teknologi Yuanxiang	60.46	53.00	77.87
6	Chatglm3-6b	Tsinghua & Kebijaksanaan	49.50	42.30	66.31
7	China-Alpaca-2-13b	yiming cui	45.36	38.91	60.40
-	Llama_2_13b_chat	Meta	37.36	34.91	43.09

Peningkatan evaluasi 23-November

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

Contoh

Kemampuan 1: Pemahaman dan Ekstraksi Semantik

Ini adalah kemampuan bahasa yang dapat memahami dan menguraikan arti dari informasi teks input. Model harus dapat mengidentifikasi makna frasa, kalimat, dan paragraf, sementara juga dapat mengekstraksi informasi dan topik utama dari blok teks yang lebih besar.

Contoh dialog multi-putaran

Catatan: Dalam contoh ini, beberapa putaran kemampuan dialog dapat dievaluasi secara bersamaan.

Kemampuan 2: Kemampuan Agen AI

Agen AI saat ini adalah hotspot penelitian mutakhir yang terkait dengan model bahasa besar.

Fokus pada mengevaluasi kinerja agen AI dalam dua kemampuan utama: [penggunaan alat] dan [perencanaan tugas]