النموذج العام الصيني المعيار الشامل superclue
【Langya Bang】-Arena Big Model Arena ، النماذج الرائدة التي تهتم بها هنا كلها هنا
"التقييم القياسي الصيني النموذجية الكبرى تقرير أبريل 2024"
أحدث قائمة من معايير تقييم النموذج الصيني الصينية الفائقة (مايو 2024)
عنوان الموقع الرسمي: www.cluebenchmarks.com/superclue.html
التقرير الفني: Superclue: معيار شامل للنموذج اللغة الصينية الكبيرة
[2023-12-27] "تقرير تقييم صيني النموذج الكبير القياسي 2023 التقرير السنوي"
【2023-12-28】 إصدار قائمة Superclue-December 2023
【2023-10-19】 Superclue-Agent: Agent Chinese Native Task Tassion Benchmark
【2023-9-12】 السلامة الفائقة: صينية كبيرة النموذج الكبير متعددة الدورات.
[2023-9-26] ، أصدر Superclue قائمة النماذج الصينية في سبتمبر.
Superclue هو معيار شامل لتقييم النموذج.
بالمقارنة مع الشهر الماضي ، تمت إضافة هيئة الذكاء الذكي AI Agent



عوامل الذكاء الاصطناعى هي حاليًا النقاط الساخنة للأبحاث المتعلقة بنماذج اللغة الكبيرة. ومع ذلك ، بالنسبة لوكلاء الذكاء الاصطناعى ، فإن التقييم الواسع للنماذج الصينية الكبيرة غير موجودة. لحل هذه المشكلة ، أضفنا تقييمًا جديدًا لقدرات وكلاء الذكاء الاصطناعى إلى قائمة Superclue الجديدة. ستركز هذه القائمة على تقييم أداء وكلاء الذكاء الاصطناعى في قدرتين رئيسيتين ، [استخدام الأداة] و [تخطيط المهام].
| تصنيف | نموذج | آلية | إجمالي النقاط | فتح مشكلة الافتتاح متعددة الدورات | ثلاثة أسئلة موضوعية حول قدرة OPT | يستخدم |
|---|---|---|---|---|---|---|
| - | GPT4 توربو | Openai | 90.63 | 90.89 | 90.03 | API |
| - | GPT4 (صفحة الويب) | Openai | 83.92 | 80.76 | 91.28 | صفحة على الإنترنت |
| - | GPT4 (API) | Openai | 79.84 | 76.24 | 88.24 | API |
| ؟ ️ | ون شين ييان 4.0 (API) | بايدو | 79.02 | 75.00 | 88.38 | API |
| ؟ | Tongyi Qianwen 2.0 | علي بابا | 76.54 | 71.78 | 87.64 | API |
| ؟ | الأنديز | oppo | 75.04 | 70.01 | 86.76 | API |
| 4 | الحكمة والكلمات الواضحة | Tsinghua والحكمة | 74.11 | 69.91 | 83.92 | صفحة على الإنترنت |
| 5 | Moonshot (Kimichat) | الجانب المظلم من القمر | 71.92 | 67.25 | 82.81 | صفحة على الإنترنت |
| - | Wen Xin Yiyan 4.0 (صفحة الويب) | بايدو | 70.28 | 62.59 | 88.22 | صفحة على الإنترنت |
| 6 | Qwen-72b-Chat | علي بابا | 69.69 | 62.31 | 86.90 | API |
| 7 | قرد تسلسل | اخرج واسأل | 68.98 | 61.01 | 87.59 | API |
| 8 | yi-34b-Chat | صفر عشرة آلاف أشياء | 68.46 | 61.99 | 83.56 | نموذج |
| 9 | PCI-transgpt | جيادو التكنولوجيا | 68.33 | 60.41 | 86.81 | API |
| 9 | 360gpt_pro | 360 | 68.32 | 61.36 | 84.56 | API |
| - | Claude2 | الإنسان | 67.43 | 65.14 | 72.77 | API |
| 11 | نموذج Skylark Big (Bean Bun) | بانسانس | 66.35 | 58.53 | 84.60 | صفحة على الإنترنت |
| - | الجوزاء | جوجل | 65.29 | 59.33 | 79.20 | API |
| - | GPT3.5 توربو | Openai | 61.44 | 55.63 | 74.98 | API |
| 12 | Qwen-14b-Chat | علي بابا | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13b-Chat | بايتشوان ذكي | 61.12 | 54.45 | 76.67 | نموذج |
| 14 | Xverse-13B-2-Chat | تقنية يوانكسيانغ | 60.46 | 53.00 | 77.87 | نموذج |
| 15 | Iflytek Spark v3.0 | Iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | الحد الأدنى (أما بالنسبة للمسائل) | التكنولوجيا XIYU | 58.91 | 50.00 | 79.69 | صفحة على الإنترنت |
| 17 | ChatGlm3-6b | Tsinghua والحكمة | 49.50 | 42.30 | 66.31 | نموذج |
| 18 | الصينية alpaca-2-13b | yiming cui | 45.36 | 38.91 | 60.40 | نموذج |
| - | llama_2_13b_chat | ميتا | 37.36 | 34.91 | 43.09 | نموذج |
ملاحظة: إذا كانت الدرجات في المقدمة قريبة نسبيًا (أقل من 0.03 نقطة) ، فسيتم تمييزها كاسم متدرج عند الترتيب.
| تصنيف | نموذج | آلية | فتح مشكلة الافتتاح متعددة الدورات | اللغة والمعرفة | المهني والمهارات | استخدام الأداة | الأمن التقليدي | يستخدم |
|---|---|---|---|---|---|---|---|---|
| - | GPT4 توربو | Openai | 90.89 | 90.21 | 97.00 | 100.00 | 62.75 | API |
| - | GPT4 (صفحة الويب) | Openai | 80.76 | 79.49 | 82.87 | 94.63 | 64.71 | صفحة على الإنترنت |
| - | GPT4 (API) | Openai | 76.24 | 73.96 | 81.15 | 93.34 | 53.92 | API |
| ؟ ️ | ون شين ييان 4.0 (API) | بايدو | 75.00 | 69.54 | 79.62 | 80.92 | 68.00 | API |
| ؟ | Tongyi Qianwen 2.0 | علي بابا | 71.78 | 71.58 | 73.40 | 76.32 | 52.94 | API |
| ؟ | الأنديز | oppo | 70.01 | 72.23 | 68.80 | 70.71 | 55.88 | API |
| 4 | الحكمة والكلمات الواضحة | Tsinghua والحكمة | 69.91 | 66.98 | 68.63 | 83.78 | 65.31 | صفحة على الإنترنت |
| 5 | Moonshot (Kimichat) | الجانب المظلم من القمر | 67.25 | 69.72 | 72.57 | 62.19 | 43.14 | صفحة على الإنترنت |
| - | Claude2 | الإنسان | 65.14 | 55.28 | 73.27 | 65.13 | 83.00 | API |
| - | Wen Xin Yiyan 4.0 (صفحة الويب) | بايدو | 62.59 | 65.05 | 63.26 | 47.37 | 64.00 | صفحة على الإنترنت |
| 6 | Qwen-72b-Chat | علي بابا | 62.31 | 59.43 | 65.59 | 60.67 | 52.00 | API |
| 7 | yi-34b-Chat | صفر عشرة آلاف أشياء | 61.99 | 63.90 | 54.55 | 71.05 | 65.31 | نموذج |
| 8 | 360gpt_pro | 360 | 61.36 | 62.09 | 58.70 | 69.33 | 60.00 | API |
| 9 | قرد تسلسل | اخرج واسأل | 61.01 | 65.81 | 59.99 | 56.58 | 45.10 | API |
| 10 | PCI-transgpt | جيادو التكنولوجيا | 60.41 | 60.39 | 61.56 | 64.66 | 50.98 | API |
| - | الجوزاء | جوجل | 59.33 | 60.50 | 61.43 | 46.53 | 62.50 | API |
| 11 | نموذج Skylark Big (Bean Bun) | بانسانس | 58.53 | 57.75 | 56.42 | 55.26 | 67.65 | صفحة على الإنترنت |
| - | GPT3.5 توربو | Openai | 55.63 | 55.30 | 56.24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13b-Chat | بايتشوان ذكي | 54.45 | 57.35 | 48.69 | 56.58 | 54.90 | نموذج |
| 13 | Xverse-13B-2-Chat | تقنية يوانكسيانغ | 53.00 | 54.63 | 45.82 | 63.33 | 57.84 | نموذج |
| 14 | Qwen-14b-Chat | علي بابا | 52.04 | 54.29 | 48.38 | 45.33 | 56.86 | API |
| 15 | Iflytek Spark v3.0 | Iflytek | 51.74 | 57.40 | 48.41 | 44.00 | 43.14 | API |
| 16 | الحد الأدنى (أما بالنسبة للمسائل) | التكنولوجيا XIYU | 50.00 | 53.54 | 45.05 | 40.13 | 50.00 | صفحة على الإنترنت |
| 17 | ChatGlm3-6b | Tsinghua والحكمة | 42.30 | 46.67 | 36.15 | 34.25 | 53.92 | نموذج |
| 18 | الصينية alpaca-2-13b | yiming cui | 38.91 | 46.46 | 29.35 | 27.63 | 46.94 | نموذج |
| - | llama_2_13b_chat | ميتا | 34.91 | 36.55 | 30.21 | 32.67 | 53.92 | نموذج |
| تصنيف | نموذج | آلية | OPT النتيجة | القدرات الأساسية | الخصائص الصينية | الكفاءة الأكاديمية والمهنية | يستخدم |
|---|---|---|---|---|---|---|---|
| - | GPT4 (صفحة الويب) | Openai | 91.28 | 97.62 | 82.38 | 93.85 | صفحة على الإنترنت |
| - | GPT4 توربو | Openai | 90.03 | 96.99 | 79.16 | 93.93 | API |
| ؟ ️ | ون شين ييان 4.0 (API) | بايدو | 88.38 | 91.65 | 86.18 | 87.32 | API |
| - | GPT4 (API) | Openai | 88.24 | 92.92 | 81.84 | 89.95 | API |
| - | Wen Xin Yiyan 4.0 (صفحة الويب) | بايدو | 88.22 | 76.48 | 78.32 | 57.05 | صفحة على الإنترنت |
| ؟ | Tongyi Qianwen 2.0 | علي بابا | 87.64 | 78.65 | 81.28 | 63.48 | API |
| ؟ | قرد تسلسل | اخرج واسأل | 87.59 | 91.46 | 80.28 | 90.57 | API |
| 4 | Qwen-72b-Chat | علي بابا | 86.90 | 92.21 | 76.65 | 91.05 | API |
| 5 | PCI-transgpt | جيادو التكنولوجيا | 86.81 | 90.76 | 80.88 | 88.42 | API |
| 6 | الأنديز | oppo | 86.76 | 92.55 | 76.17 | 90.81 | API |
| 7 | نموذج Skylark Big (Bean Bun) | بانسانس | 84.60 | 88.75 | 70.89 | 93.06 | صفحة على الإنترنت |
| 8 | 360gpt_pro | 360 | 84.56 | 91.70 | 73.32 | 87.93 | API |
| 9 | الحكمة والكلمات الواضحة | Tsinghua والحكمة | 83.92 | 89.14 | 73.10 | 88.72 | صفحة على الإنترنت |
| 10 | yi-34b-Chat | صفر عشرة آلاف أشياء | 83.56 | 86.90 | 72.81 | 90.12 | نموذج |
| 11 | Qwen-14b-Chat | علي بابا | 82.81 | 91.14 | 68.67 | 87.31 | API |
| 12 | Moonshot (Kimichat) | الجانب المظلم من القمر | 82.81 | 87.77 | 73.39 | 86.41 | صفحة على الإنترنت |
| 13 | الحد الأدنى (أما بالنسبة للمسائل) | التكنولوجيا XIYU | 79.69 | 86.52 | 66.18 | 85.18 | صفحة على الإنترنت |
| - | الجوزاء | جوجل | 79.20 | 83.72 | 70.78 | 82.51 | API |
| 14 | Xverse-13B-2-Chat | تقنية يوانكسيانغ | 77.87 | 84.46 | 62.96 | 83.85 | نموذج |
| 15 | Iflytek Spark v3.0 | Iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13b-Chat | بايتشوان ذكي | 76.67 | 80.61 | 63.79 | 84.50 | نموذج |
| - | GPT3.5 توربو | Openai | 74.98 | 83.78 | 62.83 | 77.60 | API |
| - | Claude2 | الإنسان | 72.77 | 82.13 | 65.83 | 70.10 | API |
| 17 | ChatGlm3-6b | Tsinghua والحكمة | 66.31 | 72.63 | 54.05 | 71.38 | نموذج |
| 18 | الصينية alpaca-2-13b | yiming cui | 60.40 | 70.39 | 47.75 | 62.31 | نموذج |
| - | llama_2_13b_chat | ميتا | 43.09 | 50.41 | 37.22 | 41.48 | نموذج |
| نموذج | حساب | التفكير المنطقي | شفرة | موسوعة المعرفة | فهم اللغة | توليد الخلق | حوار | لعب الأدوار | استخدام الأداة | الأمن التقليدي |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT4 توربو | 97.24 | 97.59 | 96.18 | 89.62 | 87.82 | 89.93 | 89.22 | 94.46 | 100.00 | 62.75 |
| GPT4 (صفحة الويب) | 81.16 | 85.62 | 81.84 | 79.17 | 81.91 | 78.91 | 78.38 | 79.09 | 94.63 | 64.71 |
| ون شين ييان 4.0 (API) | 77.84 | 87.84 | 73.19 | 98.63 | 71.93 | 66.36 | 57.03 | 53.77 | 80.92 | 68.00 |
| GPT4 (API) | 77.60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75.78 | 70.17 | 93.34 | 53.92 |
| Claude2 | 70.10 | 80.14 | 69.57 | 62.33 | 72.32 | 39.81 | 54.76 | 47.17 | 65.13 | 83.00 |
| Tongyi Qianwen 2.0 | 70.10 | 73.29 | 76.81 | 93.15 | 71.93 | 62.73 | 68.75 | 61.32 | 76.32 | 52.94 |
| الحكمة والكلمات الواضحة | 69.07 | 77.40 | 59.42 | 89.73 | 64.91 | 61.11 | 57.81 | 61.32 | 83.78 | 65.31 |
| Qwen-72b-Chat | 68.56 | 68.06 | 60.14 | 95.89 | 63.16 | 42.59 | 48.44 | 47.06 | 60.67 | 52.00 |
| Moonshot (Kimichat) | 68.54 | 79.65 | 69.52 | 100.00 | 66.78 | 59.65 | 61.33 | 60.84 | 62.19 | 43.14 |
| الأنديز | 62.59 | 72.26 | 71.55 | 88.36 | 74.82 | 64.23 | 68.56 | 65.19 | 70.71 | 55.88 |
| GPT3.5 توربو | 60.31 | 54.05 | 54.35 | 60.27 | 59.82 | 55.45 | 50.00 | 50.96 | 55.26 | 52.00 |
| 360gpt_pro | 56.43 | 64.97 | 54.70 | 93.84 | 62.79 | 55.73 | 55.75 | 42.32 | 69.33 | 60.00 |
| الجوزاء | 56.32 | 58.45 | 69.53 | 73.91 | 61.61 | 54.63 | 52.54 | 59.80 | 46.53 | 62.50 |
| قرد تسلسل | 55.38 | 67.12 | 57.48 | 92.47 | 58.77 | 57.81 | 56.75 | 63.27 | 56.58 | 45.10 |
| نموذج Skylark Big (Bean Bun) | 54.69 | 68.92 | 45.65 | 86.99 | 56.14 | 48.18 | 53.12 | 44.34 | 55.26 | 67.65 |
| yi-34b-Chat | 50.00 | 64.38 | 49.28 | 88.36 | 65.18 | 62.73 | 58.87 | 44.34 | 71.05 | 65.31 |
| PCI-transgpt | 49.99 | 72.19 | 62.49 | 82.88 | 60.45 | 57.18 | 54.76 | 46.69 | 64.66 | 50.98 |
| Qwen-14b-Chat | 49.48 | 56.85 | 38.81 | 76.71 | 61.40 | 45.45 | 43.75 | 44.12 | 45.33 | 56.86 |
| Wen Xin Yiyan 4.0 (صفحة الويب) | 48.45 | 79.73 | 61.59 | 97.26 | 65.79 | 60.91 | 53.17 | 48.11 | 47.37 | 64.00 |
| Xverse-13B-2-Chat | 43.30 | 50.68 | 43.48 | 72.92 | 57.02 | 47.27 | 46.88 | 49.06 | 63.33 | 57.84 |
| الحد الأدنى (أما بالنسبة للمسائل) | 43.30 | 61.43 | 30.43 | 100.00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50.00 |
| Baichuan2-13b-Chat | 40.62 | 66.22 | 39.23 | 78.77 | 53.51 | 52.78 | 55.47 | 46.23 | 56.58 | 54.90 |
| Iflytek Spark v3.0 | 38.54 | 57.43 | 49.26 | 83.57 | 62.28 | 47.17 | 46.83 | 47.17 | 44.00 | 43.14 |
| ChatGlm3-6b | 34.74 | 41.10 | 32.61 | 56.94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53.92 |
| llama_2_13b_chat | 24.74 | 40.54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53.92 |
| الصينية alpaca-2-13b | 22.40 | 45.21 | 20.45 | 51.37 | 51.75 | 39.09 | 47.66 | 42.45 | 27.63 | 46.94 |
| تصنيف | نموذج | آلية | إجمالي النقاط | يفتح جولات متعددة من القضايا الفتح | OPT ثلاثة أسئلة موضوعية حول القدرات |
|---|---|---|---|---|---|
| ؟ ️ | Qwen-72b-Chat | علي بابا | 69.69 | 62.31 | 86.90 |
| ؟ | yi-34b-Chat | صفر عشرة آلاف أشياء | 68.46 | 61.99 | 83.56 |
| ؟ | Qwen-14b-Chat | علي بابا | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13b-Chat | بايتشوان ذكي | 61.12 | 54.45 | 76.67 |
| 5 | Xverse-13B-2-Chat | تقنية يوانكسيانغ | 60.46 | 53.00 | 77.87 |
| 6 | ChatGlm3-6b | Tsinghua والحكمة | 49.50 | 42.30 | 66.31 |
| 7 | الصينية alpaca-2-13b | yiming cui | 45.36 | 38.91 | 60.40 |
| - | llama_2_13b_chat | ميتا | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
هذه قدرة لغة يمكن أن تفهم وتحليل معنى معلومات نص الإدخال. يجب أن يكون النموذج قادرًا على تحديد معنى العبارات والجمل والفقرات ، مع القدرة أيضًا على استخراج المعلومات والمواضيع الرئيسية من كتل نصية أكبر.

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.
عوامل الذكاء الاصطناعى هي حاليًا النقاط الساخنة للأبحاث المتعلقة بنماذج اللغة الكبيرة.
ركز على تقييم أداء وكلاء الذكاء الاصطناعى بقدرتين رئيسيتين: [استخدام الأدوات] و [تخطيط المهام]

هذه قدرة لغة تتطلب فهم وتذكر معلومات المحادثة السابقة من أجل الحفاظ على التماسك في الإجابات. يتضمن ذلك فهم العملية الكلية للعملية وسياقها للمحادثة ، أو توليد المحادثات المقابلة.

هذه قدرة لغة يمكن أن تنشئ محتوى نصيًا جديدًا ، مثل المقالات ، وكتابة النصوص ، والقصص القصيرة ، والشعر. يتضمن ذلك الاستخدام الإبداعي للغة ، مع الأخذ أيضًا في الاعتبار الأسلوب والسياق والقراء المستهدف.

هذه هي قدرة المعرفة التي يمكن أن توفر معلومات المعرفة مثل الموسوعة. يتضمن ذلك فهم الأسئلة والإجابة عليها حول مجموعة واسعة من الموضوعات ، بالإضافة إلى توفير معلومات دقيقة ومفصلة ومحدثة.

هذه قدرة مهنية على فهم وتوليد رمز البرمجة. يتضمن ذلك فهم بناء الجملة والبنية وعادات لغات البرمجة المتعددة ، وكيفية حل مشاكل البرمجة.

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.
هذه قدرة مهنية على فهم وتطبيق المبادئ المنطقية على العقل. وهذا ينطوي على تحليل المشكلات ، وتحديد المشكلات ، والتفكير.

هذه قدرة مهنية تمكنها من أداء العمليات الرياضية مثل الإضافة والطرح والضرب والتقسيم ، وحتى مشاكل رياضية أكثر تعقيدًا. وهذا ينطوي على فهم التعبير عن المشكلات الرياضية وكيفية حلها خطوة بخطوة.

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.
هذه قدرة إدراكية تسمح لها بلعب دور في بيئة أو سيناريو محددة محددة. يتضمن ذلك فهم سلوك شخصية معينة وأسلوب التحدث والاستجابات المناسبة في موقف معين.

هذه قدرة أمنية لمنع توليد المحتوى الذي قد يسبب المتاعب أو الأذى. يتضمن ذلك تحديد وتجنب الطلبات التي قد تحتوي على محتوى حساس أو غير مناسب ، وكذلك الامتثال لسياسات خصوصية المستخدم والأمان.

سيتم تحديث القائمة بانتظام وسيتم تضمين المزيد من النماذج الصينية المتاحة. يتم ترحيب الأفراد والمؤسسات المهتمة بتقييم النموذج الكبير للاتصال والتواصل.
