Model Umum Cina Superclue Benchmark Komprehensif
【Langya Bang】 -Chinese Big Big Model Arena Khusus, Model Terkemuka Yang Anda Peduli Ada Semua Di Sini
"Evaluasi Benchmark Model Besar Cina April 2024 Laporan"
Daftar terbaru dari tolok ukur evaluasi model besar superclue (Mei 2024)
Alamat situs web resmi: www.cluebenchmarks.com/superclue.html
Laporan Teknis: Superclue: Benchmark Model Bahasa Besar Tiongkok Komprehensif
[2023-12-27] "Laporan Evaluasi Benchmark Model Besar Cina 2023 Laporan Tahunan" Dirilis
【2023-12-28】 Rilis Superclue-Desember 2023 Daftar
【2023-10-19】 Superclue-Agent: Agen Tolok Ukur Evaluasi Tugas Asli Cina
【2023-9-12】 Superclue-Safety: Chinese Big Model Benchmark Konfrontasi Multi-Besar Model
[2023-9-26], Superclue merilis daftar model Cina September.
Superclue adalah tolok ukur evaluasi model besar yang komprehensif.
Dibandingkan dengan bulan lalu, AI Agen Intelligent Body ditambahkan



Agen AI saat ini adalah hotspot penelitian mutakhir yang terkait dengan model bahasa besar. Namun, untuk agen AI, evaluasi ekstensif model besar Cina kurang. Untuk mengatasi masalah ini, kami telah menambahkan evaluasi baru dari kemampuan agen AI ke daftar baru Superclue. Daftar ini akan fokus pada evaluasi kinerja agen AI dalam dua kemampuan utama, [penggunaan alat] dan [perencanaan tugas].
| Peringkat | Model | mekanisme | Total Poin | Buka masalah pembukaan multi-putaran | Tiga pertanyaan obyektif tentang kemampuan opt | menggunakan |
|---|---|---|---|---|---|---|
| - | GPT4-TURBO | Openai | 90.63 | 90.89 | 90.03 | API |
| - | GPT4 (halaman web) | Openai | 83.92 | 80.76 | 91.28 | Halaman web |
| - | GPT4 (API) | Openai | 79.84 | 76.24 | 88.24 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 79.02 | 75.00 | 88.38 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 76.54 | 71.78 | 87.64 | API |
| ? | Andesgpt | Oppo | 75.04 | 70.01 | 86.76 | API |
| 4 | Kebijaksanaan dan kata -kata yang jelas | Tsinghua & Kebijaksanaan | 74.11 | 69.91 | 83.92 | Halaman web |
| 5 | Moonshot (kimichat) | Sisi gelap bulan | 71.92 | 67.25 | 82.81 | Halaman web |
| - | Wen Xin Yiyan 4.0 (halaman web) | Baidu | 70.28 | 62.59 | 88.22 | Halaman web |
| 6 | QWEN-72B-CHAT | Alibaba | 69.69 | 62.31 | 86.90 | API |
| 7 | Urutan monyet | Keluar dan tanyakan | 68.98 | 61.01 | 87.59 | API |
| 8 | Yi-34b-chat | Nol sepuluh ribu hal | 68.46 | 61.99 | 83.56 | Model |
| 9 | Pci-transgpt | Teknologi Jiadu | 68.33 | 60.41 | 86.81 | API |
| 9 | 360gpt_pro | 360 | 68.32 | 61.36 | 84.56 | API |
| - | Claude2 | Antropik | 67.43 | 65.14 | 72.77 | API |
| 11 | Skylark Big Model (Bean Bun) | Bytedance | 66.35 | 58.53 | 84.60 | Halaman web |
| - | Gemini-Pro | 65.29 | 59.33 | 79.20 | API | |
| - | Gpt3.5-turbo | Openai | 61.44 | 55.63 | 74.98 | API |
| 12 | Qwen-14b-chat | Alibaba | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13b-CHAT | Baichuan Intelligent | 61.12 | 54.45 | 76.67 | Model |
| 14 | Xverse-13b-2-chat | Teknologi Yuanxiang | 60.46 | 53.00 | 77.87 | Model |
| 15 | Iflytek Spark v3.0 | Iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | Minimax (untuk masalah) | Teknologi Xiyu | 58.91 | 50.00 | 79.69 | Halaman web |
| 17 | Chatglm3-6b | Tsinghua & Kebijaksanaan | 49.50 | 42.30 | 66.31 | Model |
| 18 | China-Alpaca-2-13b | yiming cui | 45.36 | 38.91 | 60.40 | Model |
| - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 | Model |
Catatan: Jika skor di garis depan relatif dekat (kurang dari 0,03 poin), mereka akan ditandai sebagai nama berjenjang saat peringkat.
| Peringkat | Model | mekanisme | Buka masalah pembukaan multi-putaran | Bahasa dan pengetahuan | Profesional dan keterampilan | Penggunaan alat | Keamanan tradisional | menggunakan |
|---|---|---|---|---|---|---|---|---|
| - | GPT4-TURBO | Openai | 90.89 | 90.21 | 97.00 | 100.00 | 62.75 | API |
| - | GPT4 (halaman web) | Openai | 80.76 | 79.49 | 82.87 | 94.63 | 64.71 | Halaman web |
| - | GPT4 (API) | Openai | 76.24 | 73.96 | 81.15 | 93.34 | 53.92 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 75.00 | 69.54 | 79.62 | 80.92 | 68.00 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 71.78 | 71.58 | 73.40 | 76.32 | 52.94 | API |
| ? | Andesgpt | Oppo | 70.01 | 72.23 | 68.80 | 70.71 | 55.88 | API |
| 4 | Kebijaksanaan dan kata -kata yang jelas | Tsinghua & Kebijaksanaan | 69.91 | 66.98 | 68.63 | 83.78 | 65.31 | Halaman web |
| 5 | Moonshot (kimichat) | Sisi gelap bulan | 67.25 | 69.72 | 72.57 | 62.19 | 43.14 | Halaman web |
| - | Claude2 | Antropik | 65.14 | 55.28 | 73.27 | 65.13 | 83.00 | API |
| - | Wen Xin Yiyan 4.0 (halaman web) | Baidu | 62.59 | 65.05 | 63.26 | 47.37 | 64.00 | Halaman web |
| 6 | QWEN-72B-CHAT | Alibaba | 62.31 | 59.43 | 65.59 | 60.67 | 52.00 | API |
| 7 | Yi-34b-chat | Nol sepuluh ribu hal | 61.99 | 63.90 | 54.55 | 71.05 | 65.31 | Model |
| 8 | 360gpt_pro | 360 | 61.36 | 62.09 | 58.70 | 69.33 | 60.00 | API |
| 9 | Urutan monyet | Keluar dan tanyakan | 61.01 | 65.81 | 59.99 | 56.58 | 45.10 | API |
| 10 | Pci-transgpt | Teknologi Jiadu | 60.41 | 60.39 | 61.56 | 64.66 | 50.98 | API |
| - | Gemini-Pro | 59.33 | 60.50 | 61.43 | 46.53 | 62.50 | API | |
| 11 | Skylark Big Model (Bean Bun) | Bytedance | 58.53 | 57.75 | 56.42 | 55.26 | 67.65 | Halaman web |
| - | Gpt3.5-turbo | Openai | 55.63 | 55.30 | 56.24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13b-CHAT | Baichuan Intelligent | 54.45 | 57.35 | 48.69 | 56.58 | 54.90 | Model |
| 13 | Xverse-13b-2-chat | Teknologi Yuanxiang | 53.00 | 54.63 | 45.82 | 63.33 | 57.84 | Model |
| 14 | Qwen-14b-chat | Alibaba | 52.04 | 54.29 | 48.38 | 45.33 | 56.86 | API |
| 15 | Iflytek Spark v3.0 | Iflytek | 51.74 | 57.40 | 48.41 | 44.00 | 43.14 | API |
| 16 | Minimax (untuk masalah) | Teknologi Xiyu | 50.00 | 53.54 | 45.05 | 40.13 | 50.00 | Halaman web |
| 17 | Chatglm3-6b | Tsinghua & Kebijaksanaan | 42.30 | 46.67 | 36.15 | 34.25 | 53.92 | Model |
| 18 | China-Alpaca-2-13b | yiming cui | 38.91 | 46.46 | 29.35 | 27.63 | 46.94 | Model |
| - | Llama_2_13b_chat | Meta | 34.91 | 36.55 | 30.21 | 32.67 | 53.92 | Model |
| Peringkat | Model | mekanisme | Skor opt | Kemampuan dasar | Karakteristik Cina | Kompetensi akademik dan profesional | menggunakan |
|---|---|---|---|---|---|---|---|
| - | GPT4 (halaman web) | Openai | 91.28 | 97.62 | 82.38 | 93.85 | Halaman web |
| - | GPT4-TURBO | Openai | 90.03 | 96.99 | 79.16 | 93.93 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 88.38 | 91.65 | 86.18 | 87.32 | API |
| - | GPT4 (API) | Openai | 88.24 | 92.92 | 81.84 | 89.95 | API |
| - | Wen Xin Yiyan 4.0 (halaman web) | Baidu | 88.22 | 76.48 | 78.32 | 57.05 | Halaman web |
| ? | Tongyi Qianwen 2.0 | Alibaba | 87.64 | 78.65 | 81.28 | 63.48 | API |
| ? | Urutan monyet | Keluar dan tanyakan | 87.59 | 91.46 | 80.28 | 90.57 | API |
| 4 | QWEN-72B-CHAT | Alibaba | 86.90 | 92.21 | 76.65 | 91.05 | API |
| 5 | Pci-transgpt | Teknologi Jiadu | 86.81 | 90.76 | 80.88 | 88.42 | API |
| 6 | Andesgpt | Oppo | 86.76 | 92.55 | 76.17 | 90.81 | API |
| 7 | Skylark Big Model (Bean Bun) | Bytedance | 84.60 | 88.75 | 70.89 | 93.06 | Halaman web |
| 8 | 360gpt_pro | 360 | 84.56 | 91.70 | 73.32 | 87.93 | API |
| 9 | Kebijaksanaan dan kata -kata yang jelas | Tsinghua & Kebijaksanaan | 83.92 | 89.14 | 73.10 | 88.72 | Halaman web |
| 10 | Yi-34b-chat | Nol sepuluh ribu hal | 83.56 | 86.90 | 72.81 | 90.12 | Model |
| 11 | Qwen-14b-chat | Alibaba | 82.81 | 91.14 | 68.67 | 87.31 | API |
| 12 | Moonshot (kimichat) | Sisi gelap bulan | 82.81 | 87.77 | 73.39 | 86.41 | Halaman web |
| 13 | Minimax (untuk masalah) | Teknologi Xiyu | 79.69 | 86.52 | 66.18 | 85.18 | Halaman web |
| - | Gemini-Pro | 79.20 | 83.72 | 70.78 | 82.51 | API | |
| 14 | Xverse-13b-2-chat | Teknologi Yuanxiang | 77.87 | 84.46 | 62.96 | 83.85 | Model |
| 15 | Iflytek Spark v3.0 | Iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13b-CHAT | Baichuan Intelligent | 76.67 | 80.61 | 63.79 | 84.50 | Model |
| - | Gpt3.5-turbo | Openai | 74.98 | 83.78 | 62.83 | 77.60 | API |
| - | Claude2 | Antropik | 72.77 | 82.13 | 65.83 | 70.10 | API |
| 17 | Chatglm3-6b | Tsinghua & Kebijaksanaan | 66.31 | 72.63 | 54.05 | 71.38 | Model |
| 18 | China-Alpaca-2-13b | yiming cui | 60.40 | 70.39 | 47.75 | 62.31 | Model |
| - | Llama_2_13b_chat | Meta | 43.09 | 50.41 | 37.22 | 41.48 | Model |
| Model | menghitung | Penalaran logis | Kode | Ensiklopedia Pengetahuan | Pemahaman bahasa | Menghasilkan kreasi | dialog | permainan peran | Penggunaan alat | Keamanan tradisional |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT4-TURBO | 97.24 | 97.59 | 96.18 | 89.62 | 87.82 | 89.93 | 89.22 | 94.46 | 100.00 | 62.75 |
| GPT4 (halaman web) | 81.16 | 85.62 | 81.84 | 79.17 | 81.91 | 78.91 | 78.38 | 79.09 | 94.63 | 64.71 |
| Wen Xin Yiyan 4.0 (API) | 77.84 | 87.84 | 73.19 | 98.63 | 71.93 | 66.36 | 57.03 | 53.77 | 80.92 | 68.00 |
| GPT4 (API) | 77.60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75.78 | 70.17 | 93.34 | 53.92 |
| Claude2 | 70.10 | 80.14 | 69.57 | 62.33 | 72.32 | 39.81 | 54.76 | 47.17 | 65.13 | 83.00 |
| Tongyi Qianwen 2.0 | 70.10 | 73.29 | 76.81 | 93.15 | 71.93 | 62.73 | 68.75 | 61.32 | 76.32 | 52.94 |
| Kebijaksanaan dan kata -kata yang jelas | 69.07 | 77.40 | 59.42 | 89.73 | 64.91 | 61.11 | 57.81 | 61.32 | 83.78 | 65.31 |
| QWEN-72B-CHAT | 68.56 | 68.06 | 60.14 | 95.89 | 63.16 | 42.59 | 48.44 | 47.06 | 60.67 | 52.00 |
| Moonshot (kimichat) | 68.54 | 79.65 | 69.52 | 100.00 | 66.78 | 59.65 | 61.33 | 60.84 | 62.19 | 43.14 |
| Andesgpt | 62.59 | 72.26 | 71.55 | 88.36 | 74.82 | 64.23 | 68.56 | 65.19 | 70.71 | 55.88 |
| Gpt3.5-turbo | 60.31 | 54.05 | 54.35 | 60.27 | 59.82 | 55.45 | 50.00 | 50.96 | 55.26 | 52.00 |
| 360gpt_pro | 56.43 | 64.97 | 54.70 | 93.84 | 62.79 | 55.73 | 55.75 | 42.32 | 69.33 | 60.00 |
| Gemini-Pro | 56.32 | 58.45 | 69.53 | 73.91 | 61.61 | 54.63 | 52.54 | 59.80 | 46.53 | 62.50 |
| Urutan monyet | 55.38 | 67.12 | 57.48 | 92.47 | 58.77 | 57.81 | 56.75 | 63.27 | 56.58 | 45.10 |
| Skylark Big Model (Bean Bun) | 54.69 | 68.92 | 45.65 | 86.99 | 56.14 | 48.18 | 53.12 | 44.34 | 55.26 | 67.65 |
| Yi-34b-chat | 50.00 | 64.38 | 49.28 | 88.36 | 65.18 | 62.73 | 58.87 | 44.34 | 71.05 | 65.31 |
| Pci-transgpt | 49.99 | 72.19 | 62.49 | 82.88 | 60.45 | 57.18 | 54.76 | 46.69 | 64.66 | 50.98 |
| Qwen-14b-chat | 49.48 | 56.85 | 38.81 | 76.71 | 61.40 | 45.45 | 43.75 | 44.12 | 45.33 | 56.86 |
| Wen Xin Yiyan 4.0 (halaman web) | 48.45 | 79.73 | 61.59 | 97.26 | 65.79 | 60.91 | 53.17 | 48.11 | 47.37 | 64.00 |
| Xverse-13b-2-chat | 43.30 | 50.68 | 43.48 | 72.92 | 57.02 | 47.27 | 46.88 | 49.06 | 63.33 | 57.84 |
| Minimax (untuk masalah) | 43.30 | 61.43 | 30.43 | 100.00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50.00 |
| Baichuan2-13b-CHAT | 40.62 | 66.22 | 39.23 | 78.77 | 53.51 | 52.78 | 55.47 | 46.23 | 56.58 | 54.90 |
| Iflytek Spark v3.0 | 38.54 | 57.43 | 49.26 | 83.57 | 62.28 | 47.17 | 46.83 | 47.17 | 44.00 | 43.14 |
| Chatglm3-6b | 34.74 | 41.10 | 32.61 | 56.94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53.92 |
| Llama_2_13b_chat | 24.74 | 40.54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53.92 |
| China-Alpaca-2-13b | 22.40 | 45.21 | 20.45 | 51.37 | 51.75 | 39.09 | 47.66 | 42.45 | 27.63 | 46.94 |
| Peringkat | Model | mekanisme | Total Poin | MEMBUKA Beberapa putaran masalah pembukaan | MEMILIH Tiga pertanyaan obyektif tentang kemampuan |
|---|---|---|---|---|---|
| ? ️ | QWEN-72B-CHAT | Alibaba | 69.69 | 62.31 | 86.90 |
| ? | Yi-34b-chat | Nol sepuluh ribu hal | 68.46 | 61.99 | 83.56 |
| ? | Qwen-14b-chat | Alibaba | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13b-CHAT | Baichuan Intelligent | 61.12 | 54.45 | 76.67 |
| 5 | Xverse-13b-2-chat | Teknologi Yuanxiang | 60.46 | 53.00 | 77.87 |
| 6 | Chatglm3-6b | Tsinghua & Kebijaksanaan | 49.50 | 42.30 | 66.31 |
| 7 | China-Alpaca-2-13b | yiming cui | 45.36 | 38.91 | 60.40 |
| - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
Ini adalah kemampuan bahasa yang dapat memahami dan menguraikan arti dari informasi teks input. Model harus dapat mengidentifikasi makna frasa, kalimat, dan paragraf, sementara juga dapat mengekstraksi informasi dan topik utama dari blok teks yang lebih besar.

Catatan: Dalam contoh ini, beberapa putaran kemampuan dialog dapat dievaluasi secara bersamaan.
Agen AI saat ini adalah hotspot penelitian mutakhir yang terkait dengan model bahasa besar.
Fokus pada mengevaluasi kinerja agen AI dalam dua kemampuan utama: [penggunaan alat] dan [perencanaan tugas]

Ini adalah kemampuan bahasa yang membutuhkan pemahaman dan mengingat informasi percakapan sebelumnya untuk mempertahankan koherensi dalam jawaban. Ini melibatkan pemahaman keseluruhan proses dan konteks percakapan, atau menghasilkan percakapan yang sesuai.

Ini adalah kemampuan bahasa yang dapat membuat konten tekstual baru, seperti artikel, copywriting, cerita pendek, dan puisi. Ini melibatkan penggunaan bahasa kreatif, sementara juga mempertimbangkan gaya, konteks, dan pembaca target.

Ini adalah kemampuan pengetahuan yang dapat memberikan informasi pengetahuan seperti ensiklopedia. Ini melibatkan pemahaman dan menjawab pertanyaan tentang berbagai topik, serta memberikan informasi yang akurat, terperinci, dan terkini.

Ini adalah kemampuan profesional untuk memahami dan menghasilkan kode pemrograman. Ini melibatkan pemahaman sintaks, struktur, dan kebiasaan beberapa bahasa pemrograman, dan bagaimana menyelesaikan masalah pemrograman.

Catatan: Dalam contoh ini, beberapa putaran kemampuan dialog dapat dievaluasi secara bersamaan.
Ini adalah kemampuan profesional untuk memahami dan menerapkan prinsip -prinsip logis pada alasan. Ini melibatkan menganalisis masalah, mengidentifikasi masalah, dan penalaran.

Ini adalah kemampuan profesional yang memungkinkannya melakukan operasi matematika seperti penambahan, pengurangan, perkalian dan pembagian, dan bahkan masalah matematika yang lebih kompleks. Ini melibatkan pemahaman ekspresi masalah matematika dan bagaimana menyelesaikannya langkah demi langkah.

Catatan: Dalam contoh ini, beberapa putaran kemampuan dialog dapat dievaluasi secara bersamaan.
Ini adalah kemampuan perseptual yang memungkinkannya memainkan peran dalam lingkungan atau skenario simulasi tertentu. Ini melibatkan pemahaman perilaku karakter tertentu, gaya berbicara, dan respons yang tepat dalam situasi tertentu.

Ini adalah kemampuan keamanan untuk mencegah pembuatan konten yang dapat menyebabkan masalah atau bahaya. Ini melibatkan mengidentifikasi dan menghindari permintaan yang mungkin berisi konten yang sensitif atau tidak pantas, serta mematuhi kebijakan privasi dan keamanan pengguna.

Daftar ini akan diperbarui secara berkala dan lebih banyak model Cina yang tersedia akan dimasukkan. Individu dan lembaga yang tertarik dengan evaluasi model besar dipersilakan untuk menghubungi dan berkomunikasi.
