تنزيل SuperCLUE - تنزيل رمز مصدر SuperCLUE

SuperCLUE

شفرة المصدر الأخرى

1.0.0

تنزيل

superclue

النموذج العام الصيني المعيار الشامل superclue

【Langya Bang】-Arena Big Model Arena ، النماذج الرائدة التي تهتم بها هنا كلها هنا

"التقييم القياسي الصيني النموذجية الكبرى تقرير أبريل 2024"

أحدث قائمة من معايير تقييم النموذج الصيني الصينية الفائقة (مايو 2024)

عنوان الموقع الرسمي: www.cluebenchmarks.com/superclue.html

التقرير الفني: Superclue: معيار شامل للنموذج اللغة الصينية الكبيرة

[2023-12-27] "تقرير تقييم صيني النموذج الكبير القياسي 2023 التقرير السنوي"

【2023-12-28】 إصدار قائمة Superclue-December 2023

【2023-10-19】 Superclue-Agent: Agent Chinese Native Task Tassion Benchmark

【2023-9-12】 السلامة الفائقة: صينية كبيرة النموذج الكبير متعددة الدورات.

[2023-9-26] ، أصدر Superclue قائمة النماذج الصينية في سبتمبر.

Superclue هو معيار شامل لتقييم النموذج.

بالمقارنة مع الشهر الماضي ، تمت إضافة هيئة الذكاء الذكي AI Agent

مخطط هيكل تقييم القدرة الفائقة

خطة تقييم متعددة الأبعاد الفائقة

لماذا تمت إضافة قدرات وكيل AI الجديدة؟

عوامل الذكاء الاصطناعى هي حاليًا النقاط الساخنة للأبحاث المتعلقة بنماذج اللغة الكبيرة. ومع ذلك ، بالنسبة لوكلاء الذكاء الاصطناعى ، فإن التقييم الواسع للنماذج الصينية الكبيرة غير موجودة. لحل هذه المشكلة ، أضفنا تقييمًا جديدًا لقدرات وكلاء الذكاء الاصطناعى إلى قائمة Superclue الجديدة. ستركز هذه القائمة على تقييم أداء وكلاء الذكاء الاصطناعى في قدرتين رئيسيتين ، [استخدام الأداة] و [تخطيط المهام].

قائمة الترتيب الإجمالي Superclue (ديسمبر 2023)

تصنيف	نموذج	آلية	إجمالي النقاط	فتح مشكلة الافتتاح متعددة الدورات	ثلاثة أسئلة موضوعية حول قدرة OPT	يستخدم
-	GPT4 توربو	Openai	90.63	90.89	90.03	API
-	GPT4 (صفحة الويب)	Openai	83.92	80.76	91.28	صفحة على الإنترنت
-	GPT4 (API)	Openai	79.84	76.24	88.24	API
؟ ️	ون شين ييان 4.0 (API)	بايدو	79.02	75.00	88.38	API
؟	Tongyi Qianwen 2.0	علي بابا	76.54	71.78	87.64	API
؟	الأنديز	oppo	75.04	70.01	86.76	API
4	الحكمة والكلمات الواضحة	Tsinghua والحكمة	74.11	69.91	83.92	صفحة على الإنترنت
5	Moonshot (Kimichat)	الجانب المظلم من القمر	71.92	67.25	82.81	صفحة على الإنترنت
-	Wen Xin Yiyan 4.0 (صفحة الويب)	بايدو	70.28	62.59	88.22	صفحة على الإنترنت
6	Qwen-72b-Chat	علي بابا	69.69	62.31	86.90	API
7	قرد تسلسل	اخرج واسأل	68.98	61.01	87.59	API
8	yi-34b-Chat	صفر عشرة آلاف أشياء	68.46	61.99	83.56	نموذج
9	PCI-transgpt	جيادو التكنولوجيا	68.33	60.41	86.81	API
9	360gpt_pro	360	68.32	61.36	84.56	API
-	Claude2	الإنسان	67.43	65.14	72.77	API
11	نموذج Skylark Big (Bean Bun)	بانسانس	66.35	58.53	84.60	صفحة على الإنترنت
-	الجوزاء	جوجل	65.29	59.33	79.20	API
-	GPT3.5 توربو	Openai	61.44	55.63	74.98	API
12	Qwen-14b-Chat	علي بابا	61.27	52.04	82.81	API
13	Baichuan2-13b-Chat	بايتشوان ذكي	61.12	54.45	76.67	نموذج
14	Xverse-13B-2-Chat	تقنية يوانكسيانغ	60.46	53.00	77.87	نموذج
15	Iflytek Spark v3.0	Iflytek	59.33	51.74	77.03	API
16	الحد الأدنى (أما بالنسبة للمسائل)	التكنولوجيا XIYU	58.91	50.00	79.69	صفحة على الإنترنت
17	ChatGlm3-6b	Tsinghua والحكمة	49.50	42.30	66.31	نموذج
18	الصينية alpaca-2-13b	yiming cui	45.36	38.91	60.40	نموذج
-	llama_2_13b_chat	ميتا	37.36	34.91	43.09	نموذج

ملاحظة: إذا كانت الدرجات في المقدمة قريبة نسبيًا (أقل من 0.03 نقطة) ، فسيتم تمييزها كاسم متدرج عند الترتيب.

Superclue-Open Multi-ound Open Prisoning (December 2023)

تصنيف	نموذج	آلية	فتح مشكلة الافتتاح متعددة الدورات	اللغة والمعرفة	المهني والمهارات	استخدام الأداة	الأمن التقليدي	يستخدم
-	GPT4 توربو	Openai	90.89	90.21	97.00	100.00	62.75	API
-	GPT4 (صفحة الويب)	Openai	80.76	79.49	82.87	94.63	64.71	صفحة على الإنترنت
-	GPT4 (API)	Openai	76.24	73.96	81.15	93.34	53.92	API
؟ ️	ون شين ييان 4.0 (API)	بايدو	75.00	69.54	79.62	80.92	68.00	API
؟	Tongyi Qianwen 2.0	علي بابا	71.78	71.58	73.40	76.32	52.94	API
؟	الأنديز	oppo	70.01	72.23	68.80	70.71	55.88	API
4	الحكمة والكلمات الواضحة	Tsinghua والحكمة	69.91	66.98	68.63	83.78	65.31	صفحة على الإنترنت
5	Moonshot (Kimichat)	الجانب المظلم من القمر	67.25	69.72	72.57	62.19	43.14	صفحة على الإنترنت
-	Claude2	الإنسان	65.14	55.28	73.27	65.13	83.00	API
-	Wen Xin Yiyan 4.0 (صفحة الويب)	بايدو	62.59	65.05	63.26	47.37	64.00	صفحة على الإنترنت
6	Qwen-72b-Chat	علي بابا	62.31	59.43	65.59	60.67	52.00	API
7	yi-34b-Chat	صفر عشرة آلاف أشياء	61.99	63.90	54.55	71.05	65.31	نموذج
8	360gpt_pro	360	61.36	62.09	58.70	69.33	60.00	API
9	قرد تسلسل	اخرج واسأل	61.01	65.81	59.99	56.58	45.10	API
10	PCI-transgpt	جيادو التكنولوجيا	60.41	60.39	61.56	64.66	50.98	API
-	الجوزاء	جوجل	59.33	60.50	61.43	46.53	62.50	API
11	نموذج Skylark Big (Bean Bun)	بانسانس	58.53	57.75	56.42	55.26	67.65	صفحة على الإنترنت
-	GPT3.5 توربو	Openai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13b-Chat	بايتشوان ذكي	54.45	57.35	48.69	56.58	54.90	نموذج
13	Xverse-13B-2-Chat	تقنية يوانكسيانغ	53.00	54.63	45.82	63.33	57.84	نموذج
14	Qwen-14b-Chat	علي بابا	52.04	54.29	48.38	45.33	56.86	API
15	Iflytek Spark v3.0	Iflytek	51.74	57.40	48.41	44.00	43.14	API
16	الحد الأدنى (أما بالنسبة للمسائل)	التكنولوجيا XIYU	50.00	53.54	45.05	40.13	50.00	صفحة على الإنترنت
17	ChatGlm3-6b	Tsinghua والحكمة	42.30	46.67	36.15	34.25	53.92	نموذج
18	الصينية alpaca-2-13b	yiming cui	38.91	46.46	29.35	27.63	46.94	نموذج
-	llama_2_13b_chat	ميتا	34.91	36.55	30.21	32.67	53.92	نموذج

تصنيف الأسئلة الموضوعية للقدرات الرئيسية الثلاث لـ Superclue-OPT (ديسمبر 2023)

تصنيف	نموذج	آلية	OPT النتيجة	القدرات الأساسية	الخصائص الصينية	الكفاءة الأكاديمية والمهنية	يستخدم
-	GPT4 (صفحة الويب)	Openai	91.28	97.62	82.38	93.85	صفحة على الإنترنت
-	GPT4 توربو	Openai	90.03	96.99	79.16	93.93	API
؟ ️	ون شين ييان 4.0 (API)	بايدو	88.38	91.65	86.18	87.32	API
-	GPT4 (API)	Openai	88.24	92.92	81.84	89.95	API
-	Wen Xin Yiyan 4.0 (صفحة الويب)	بايدو	88.22	76.48	78.32	57.05	صفحة على الإنترنت
؟	Tongyi Qianwen 2.0	علي بابا	87.64	78.65	81.28	63.48	API
؟	قرد تسلسل	اخرج واسأل	87.59	91.46	80.28	90.57	API
4	Qwen-72b-Chat	علي بابا	86.90	92.21	76.65	91.05	API
5	PCI-transgpt	جيادو التكنولوجيا	86.81	90.76	80.88	88.42	API
6	الأنديز	oppo	86.76	92.55	76.17	90.81	API
7	نموذج Skylark Big (Bean Bun)	بانسانس	84.60	88.75	70.89	93.06	صفحة على الإنترنت
8	360gpt_pro	360	84.56	91.70	73.32	87.93	API
9	الحكمة والكلمات الواضحة	Tsinghua والحكمة	83.92	89.14	73.10	88.72	صفحة على الإنترنت
10	yi-34b-Chat	صفر عشرة آلاف أشياء	83.56	86.90	72.81	90.12	نموذج
11	Qwen-14b-Chat	علي بابا	82.81	91.14	68.67	87.31	API
12	Moonshot (Kimichat)	الجانب المظلم من القمر	82.81	87.77	73.39	86.41	صفحة على الإنترنت
13	الحد الأدنى (أما بالنسبة للمسائل)	التكنولوجيا XIYU	79.69	86.52	66.18	85.18	صفحة على الإنترنت
-	الجوزاء	جوجل	79.20	83.72	70.78	82.51	API
14	Xverse-13B-2-Chat	تقنية يوانكسيانغ	77.87	84.46	62.96	83.85	نموذج
15	Iflytek Spark v3.0	Iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-Chat	بايتشوان ذكي	76.67	80.61	63.79	84.50	نموذج
-	GPT3.5 توربو	Openai	74.98	83.78	62.83	77.60	API
-	Claude2	الإنسان	72.77	82.13	65.83	70.10	API
17	ChatGlm3-6b	Tsinghua والحكمة	66.31	72.63	54.05	71.38	نموذج
18	الصينية alpaca-2-13b	yiming cui	60.40	70.39	47.75	62.31	نموذج
-	llama_2_13b_chat	ميتا	43.09	50.41	37.22	41.48	نموذج

Superclue Top Ten Basic Transking (December 2023)

نموذج	حساب	التفكير المنطقي	شفرة	موسوعة المعرفة	فهم اللغة	توليد الخلق	حوار	لعب الأدوار	استخدام الأداة	الأمن التقليدي
GPT4 توربو	97.24	97.59	96.18	89.62	87.82	89.93	89.22	94.46	100.00	62.75
GPT4 (صفحة الويب)	81.16	85.62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
ون شين ييان 4.0 (API)	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4 (API)	77.60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53.92
Claude2	70.10	80.14	69.57	62.33	72.32	39.81	54.76	47.17	65.13	83.00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
الحكمة والكلمات الواضحة	69.07	77.40	59.42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
Qwen-72b-Chat	68.56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60.67	52.00
Moonshot (Kimichat)	68.54	79.65	69.52	100.00	66.78	59.65	61.33	60.84	62.19	43.14
الأنديز	62.59	72.26	71.55	88.36	74.82	64.23	68.56	65.19	70.71	55.88
GPT3.5 توربو	60.31	54.05	54.35	60.27	59.82	55.45	50.00	50.96	55.26	52.00
360gpt_pro	56.43	64.97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
الجوزاء	56.32	58.45	69.53	73.91	61.61	54.63	52.54	59.80	46.53	62.50
قرد تسلسل	55.38	67.12	57.48	92.47	58.77	57.81	56.75	63.27	56.58	45.10
نموذج Skylark Big (Bean Bun)	54.69	68.92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67.65
yi-34b-Chat	50.00	64.38	49.28	88.36	65.18	62.73	58.87	44.34	71.05	65.31
PCI-transgpt	49.99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64.66	50.98
Qwen-14b-Chat	49.48	56.85	38.81	76.71	61.40	45.45	43.75	44.12	45.33	56.86
Wen Xin Yiyan 4.0 (صفحة الويب)	48.45	79.73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
Xverse-13B-2-Chat	43.30	50.68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57.84
الحد الأدنى (أما بالنسبة للمسائل)	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13b-Chat	40.62	66.22	39.23	78.77	53.51	52.78	55.47	46.23	56.58	54.90
Iflytek Spark v3.0	38.54	57.43	49.26	83.57	62.28	47.17	46.83	47.17	44.00	43.14
ChatGlm3-6b	34.74	41.10	32.61	56.94	54.39	38.18	41.41	42.45	34.25	53.92
llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53.92
الصينية alpaca-2-13b	22.40	45.21	20.45	51.37	51.75	39.09	47.66	42.45	27.63	46.94

تصنيفات طراز Superclue مفتوح المصدر (ديسمبر 2023)

تصنيف	نموذج	آلية	إجمالي النقاط	يفتح جولات متعددة من القضايا الفتح	OPT ثلاثة أسئلة موضوعية حول القدرات
؟ ️	Qwen-72b-Chat	علي بابا	69.69	62.31	86.90
؟	yi-34b-Chat	صفر عشرة آلاف أشياء	68.46	61.99	83.56
؟	Qwen-14b-Chat	علي بابا	61.27	52.04	82.81
4	Baichuan2-13b-Chat	بايتشوان ذكي	61.12	54.45	76.67
5	Xverse-13B-2-Chat	تقنية يوانكسيانغ	60.46	53.00	77.87
6	ChatGlm3-6b	Tsinghua والحكمة	49.50	42.30	66.31
7	الصينية alpaca-2-13b	yiming cui	45.36	38.91	60.40
-	llama_2_13b_chat	ميتا	37.36	34.91	43.09

23 نوفمبر تحسين التقييم

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

مثال

القدرة 1: الفهم الدلالي والاستخراج

هذه قدرة لغة يمكن أن تفهم وتحليل معنى معلومات نص الإدخال. يجب أن يكون النموذج قادرًا على تحديد معنى العبارات والجمل والفقرات ، مع القدرة أيضًا على استخراج المعلومات والمواضيع الرئيسية من كتل نصية أكبر.

مثال حوار متعدد الدور

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.

القدرة 2: قدرة وكيل الذكاء الاصطناعي

عوامل الذكاء الاصطناعى هي حاليًا النقاط الساخنة للأبحاث المتعلقة بنماذج اللغة الكبيرة.

ركز على تقييم أداء وكلاء الذكاء الاصطناعى بقدرتين رئيسيتين: [استخدام الأدوات] و [تخطيط المهام]

مثال

القدرة 3: حوار السياق

هذه قدرة لغة تتطلب فهم وتذكر معلومات المحادثة السابقة من أجل الحفاظ على التماسك في الإجابات. يتضمن ذلك فهم العملية الكلية للعملية وسياقها للمحادثة ، أو توليد المحادثات المقابلة.

مثال

القدرة 4: التوليد والخلق

هذه قدرة لغة يمكن أن تنشئ محتوى نصيًا جديدًا ، مثل المقالات ، وكتابة النصوص ، والقصص القصيرة ، والشعر. يتضمن ذلك الاستخدام الإبداعي للغة ، مع الأخذ أيضًا في الاعتبار الأسلوب والسياق والقراء المستهدف.

مثال

القدرة 5: المعرفة والموسوعة

هذه هي قدرة المعرفة التي يمكن أن توفر معلومات المعرفة مثل الموسوعة. يتضمن ذلك فهم الأسئلة والإجابة عليها حول مجموعة واسعة من الموضوعات ، بالإضافة إلى توفير معلومات دقيقة ومفصلة ومحدثة.

مثال

القدرة 6: رمز

هذه قدرة مهنية على فهم وتوليد رمز البرمجة. يتضمن ذلك فهم بناء الجملة والبنية وعادات لغات البرمجة المتعددة ، وكيفية حل مشاكل البرمجة.

مثال حوار متعدد الدور

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.

القدرة 7: المنطق والمنطق

هذه قدرة مهنية على فهم وتطبيق المبادئ المنطقية على العقل. وهذا ينطوي على تحليل المشكلات ، وتحديد المشكلات ، والتفكير.

مثال

القدرة 8: الحساب

هذه قدرة مهنية تمكنها من أداء العمليات الرياضية مثل الإضافة والطرح والضرب والتقسيم ، وحتى مشاكل رياضية أكثر تعقيدًا. وهذا ينطوي على فهم التعبير عن المشكلات الرياضية وكيفية حلها خطوة بخطوة.

مثال حوار متعدد الدور

ملاحظة: في هذا المثال ، يمكن تقييم جولات متعددة من قدرات الحوار في وقت واحد.

القدرة 9: لعب الأدوار

هذه قدرة إدراكية تسمح لها بلعب دور في بيئة أو سيناريو محددة محددة. يتضمن ذلك فهم سلوك شخصية معينة وأسلوب التحدث والاستجابات المناسبة في موقف معين.

مثال

القدرة 10: السلامة

هذه قدرة أمنية لمنع توليد المحتوى الذي قد يسبب المتاعب أو الأذى. يتضمن ذلك تحديد وتجنب الطلبات التي قد تحتوي على محتوى حساس أو غير مناسب ، وكذلك الامتثال لسياسات خصوصية المستخدم والأمان.