Скачать SuperCLUE - Скачать SuperCLUE Source Code

SuperCLUE

Другой исходный код

1.0.0

Скачать

SuperClue

Китайская общая модель всеобъемлющий эталон Superclue

【Langya Bang】-Chinese Big Model Special Arena, ведущие модели, о которых вас волнуют, все здесь

"Отчет китайской крупной модели. Оценка апреля 2024 года"

Последний список суперклеи китайской крупной модели -модели (май 2024 г.)

Официальный адрес веб -сайта: www.cluebenchmarks.com/superclue.html

Технический отчет: SuperClue: Комплексная китайская модель на крупном языке

[2023-12-27] «Отчет о оценке Big Big Model Big Model 2023 Годовой отчет»

【2023-12-28】 Выпуск Superclue-December 2023

【2023-10-19】 Superclue-Agent: Агент Китайский

【2023-9-12】 Superclue Safety: китайская большая модель многоуровневая конфронтация.

[2023-9-26], SuperClue выпустил сентябрьский список китайских моделей.

SuperClue является комплексным эталоном оценки большой модели.

По сравнению с прошлым месяцем, интеллектуальное тело агента AI было добавлено

Диаграмма структуры оценки возможностей SuperClue

SuperClue многомерный план оценки

Почему добавлены новые возможности агента AI -агента?

Агенты ИИ в настоящее время являются передовыми исследованиями исследований, связанных с большими языковыми моделями. Тем не менее, для агентов искусственного интеллекта не хватает обширной оценки крупных моделей Китая. Чтобы решить эту проблему, мы добавили новую оценку возможностей агентов искусственного интеллекта в новый список SuperClue. Этот список будет сосредоточен на оценке производительности агентов искусственного интеллекта в двух ключевых способностях, [использование инструментов] и [планирование задач].

Список рейтинга SuperClue (декабрь 2023 г.)

Рейтинг	Модель	механизм	Общие очки	Открыть проблему открытия с несколькими раундами	Три объективных вопроса о способности OPT	использовать
-	GPT4-Turbo	Openai	90.63	90.89	90.03	API
-	GPT4 (веб -страница)	Openai	83,92	80.76	91.28	веб-страница
-	GPT4 (API)	Openai	79,84	76.24	88.24	API
? ️	Вэнь Синьиян 4.0 (API)	Байду	79,02	75,00	88.38	API
?	Tongyi Qianwen 2.0	Алибаба	76.54	71.78	87.64	API
?	Andesgpt	Противоположный	75.04	70.01	86.76	API
4	Мудрость и ясные слова	Цингхуа и Мудрость	74.11	69,91	83,92	веб-страница
5	Сауншот (Кимичат)	Темная сторона Луны	71.92	67.25	82,81	веб-страница
-	Wen xin yiyan 4.0 (веб -страница)	Байду	70.28	62,59	88.22	веб-страница
6	QWEN-72B-Chat	Алибаба	69,69	62,31	86.90	API
7	Последовательность обезьяна	Выйти и спросить	68,98	61.01	87.59	API
8	Yi-34b-чат	Ноль десять тысяч вещей	68.46	61,99	83,56	Модель
9	PCI-Transgpt	Цзиаду технология	68.33	60.41	86.81	API
9	360gpt_pro	360	68.32	61.36	84,56	API
-	Claude2	Антроп	67.43	65.14	72,77	API
11	Skylark Big Model (Bean Bun)	Бабочка	66.35	58.53	84,60	веб-страница
-	Близнецы-про	Google	65,29	59,33	79,20	API
-	GPT3.5-Turbo	Openai	61.44	55,63	74,98	API
12	QWEN-14B-чат	Алибаба	61.27	52,04	82,81	API
13	Baichuan2-13b-Chat	Baichuan Intellent	61.12	54,45	76.67	Модель
14	Xverse-13b-2-чат	Yuanxiang Technology	60.46	53,00	77.87	Модель
15	Iflytek Spark v3.0	iflytek	59,33	51.74	77.03	API
16	Минимакса (как по вопросам)	Xiyu Technology	58.91	50.00	79,69	веб-страница
17	Chatglm3-6b	Цингхуа и Мудрость	49,50	42.30	66.31	Модель
18	Китай-Альпака-2-13B	Yiming Cui	45,36	38.91	60.40	Модель
-	Llama_2_13b_chat	Мета	37.36	34,91	43.09	Модель

ПРИМЕЧАНИЕ. Если оценки на переднем крае относительно близки (менее 0,03 балла), они будут помечены как многоуровневое имя при ранжировании.

Superclue-Open Multi-Round Open Ranking (декабрь 2023 г.)

Рейтинг	Модель	механизм	Открыть проблему открытия с несколькими раундами	Язык и знание	Профессиональные и навыки	Использование инструмента	Традиционная безопасность	использовать
-	GPT4-Turbo	Openai	90.89	90.21	97.00	100.00	62,75	API
-	GPT4 (веб -страница)	Openai	80.76	79,49	82,87	94,63	64,71	веб-страница
-	GPT4 (API)	Openai	76.24	73,96	81.15	93.34	53,92	API
? ️	Вэнь Синьиян 4.0 (API)	Байду	75,00	69,54	79,62	80.92	68.00	API
?	Tongyi Qianwen 2.0	Алибаба	71.78	71.58	73,40	76.32	52,94	API
?	Andesgpt	Противоположный	70.01	72.23	68,80	70.71	55,88	API
4	Мудрость и ясные слова	Цингхуа и Мудрость	69,91	66.98	68.63	83,78	65,31	веб-страница
5	Сауншот (Кимичат)	Темная сторона Луны	67.25	69,72	72,57	62.19	43.14	веб-страница
-	Claude2	Антроп	65.14	55,28	73,27	65.13	83,00	API
-	Wen xin yiyan 4.0 (веб -страница)	Байду	62,59	65,05	63,26	47.37	64,00	веб-страница
6	QWEN-72B-Chat	Алибаба	62,31	59,43	65,59	60.67	52,00	API
7	Yi-34b-чат	Ноль десять тысяч вещей	61,99	63,90	54,55	71.05	65,31	Модель
8	360gpt_pro	360	61.36	62.09	58,70	69,33	60.00	API
9	Последовательность обезьяна	Выйти и спросить	61.01	65,81	59,99	56.58	45.10	API
10	PCI-Transgpt	Цзиаду технология	60.41	60.39	61.56	64,66	50,98	API
-	Близнецы-про	Google	59,33	60.50	61.43	46.53	62,50	API
11	Skylark Big Model (Bean Bun)	Бабочка	58.53	57,75	56.42	55,26	67.65	веб-страница
-	GPT3.5-Turbo	Openai	55,63	55,30	56.24	55,26	52,00	API
12	Baichuan2-13b-Chat	Baichuan Intellent	54,45	57.35	48.69	56.58	54,90	Модель
13	Xverse-13b-2-чат	Yuanxiang Technology	53,00	54,63	45,82	63,33	57.84	Модель
14	QWEN-14B-чат	Алибаба	52,04	54,29	48.38	45,33	56.86	API
15	Iflytek Spark v3.0	iflytek	51.74	57.40	48.41	44,00	43.14	API
16	Минимакса (как по вопросам)	Xiyu Technology	50.00	53,54	45,05	40.13	50.00	веб-страница
17	Chatglm3-6b	Цингхуа и Мудрость	42.30	46.67	36.15	34,25	53,92	Модель
18	Китай-Альпака-2-13B	Yiming Cui	38.91	46.46	29,35	27.63	46.94	Модель
-	Llama_2_13b_chat	Мета	34,91	36.55	30.21	32,67	53,92	Модель

Рейтинг объективных вопросов для трех основных способностей SuperClue-Opt (декабрь 2023 г.)

Рейтинг	Модель	механизм	Обратитесь	Основные способности	Китайские характеристики	Академическая и профессиональная компетентность	использовать
-	GPT4 (веб -страница)	Openai	91.28	97.62	82,38	93,85	веб-страница
-	GPT4-Turbo	Openai	90.03	96.99	79,16	93,93	API
? ️	Вэнь Синьиян 4.0 (API)	Байду	88.38	91.65	86.18	87.32	API
-	GPT4 (API)	Openai	88.24	92,92	81.84	89,95	API
-	Wen xin yiyan 4.0 (веб -страница)	Байду	88.22	76.48	78.32	57.05	веб-страница
?	Tongyi Qianwen 2.0	Алибаба	87.64	78.65	81.28	63,48	API
?	Последовательность обезьяна	Выйти и спросить	87.59	91.46	80.28	90.57	API
4	QWEN-72B-Chat	Алибаба	86.90	92.21	76.65	91.05	API
5	PCI-Transgpt	Цзиаду технология	86.81	90.76	80.88	88.42	API
6	Andesgpt	Противоположный	86.76	92,55	76.17	90.81	API
7	Skylark Big Model (Bean Bun)	Бабочка	84,60	88,75	70.89	93.06	веб-страница
8	360gpt_pro	360	84,56	91.70	73,32	87.93	API
9	Мудрость и ясные слова	Цингхуа и Мудрость	83,92	89.14	73.10	88.72	веб-страница
10	Yi-34b-чат	Ноль десять тысяч вещей	83,56	86.90	72,81	90.12	Модель
11	QWEN-14B-чат	Алибаба	82,81	91.14	68.67	87.31	API
12	Сауншот (Кимичат)	Темная сторона Луны	82,81	87.77	73,39	86.41	веб-страница
13	Минимакса (как по вопросам)	Xiyu Technology	79,69	86.52	66.18	85,18	веб-страница
-	Близнецы-про	Google	79,20	83,72	70.78	82,51	API
14	Xverse-13b-2-чат	Yuanxiang Technology	77.87	84,46	62,96	83,85	Модель
15	Iflytek Spark v3.0	iflytek	77.03	84,04	63,43	82,48	API
16	Baichuan2-13b-Chat	Baichuan Intellent	76.67	80.61	63,79	84,50	Модель
-	GPT3.5-Turbo	Openai	74,98	83,78	62,83	77.60	API
-	Claude2	Антроп	72,77	82.13	65,83	70.10	API
17	Chatglm3-6b	Цингхуа и Мудрость	66.31	72,63	54,05	71.38	Модель
18	Китай-Альпака-2-13B	Yiming Cui	60.40	70.39	47,75	62,31	Модель
-	Llama_2_13b_chat	Мета	43.09	50.41	37.22	41.48	Модель

Superclue Top Desul Basic Placitions Ranking (декабрь 2023 г.)

Модель	рассчитывать	Логические рассуждения	Код	Знание энциклопедии	Понимание языка	Генерировать творение	диалог	ролевые игры	Использование инструмента	Традиционная безопасность
GPT4-Turbo	97.24	97.59	96.18	89,62	87.82	89,93	89,22	94,46	100.00	62,75
GPT4 (веб -страница)	81.16	85,62	81.84	79.17	81.91	78.91	78.38	79,09	94,63	64,71
Вэнь Синьиян 4.0 (API)	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53,77	80.92	68.00
GPT4 (API)	77.60	85,37	80.49	78.08	73.04	72,73	75,78	70.17	93.34	53,92
Claude2	70.10	80.14	69,57	62,33	72,32	39,81	54,76	47.17	65.13	83,00
Tongyi Qianwen 2.0	70.10	73,29	76.81	93.15	71.93	62,73	68,75	61.32	76.32	52,94
Мудрость и ясные слова	69.07	77.40	59,42	89,73	64,91	61.11	57.81	61.32	83,78	65,31
QWEN-72B-Chat	68.56	68.06	60.14	95,89	63.16	42,59	48.44	47.06	60.67	52,00
Сауншот (Кимичат)	68.54	79,65	69,52	100.00	66.78	59,65	61.33	60.84	62.19	43.14
Andesgpt	62,59	72,26	71.55	88.36	74,82	64,23	68.56	65.19	70.71	55,88
GPT3.5-Turbo	60.31	54,05	54,35	60.27	59,82	55,45	50.00	50.96	55,26	52,00
360gpt_pro	56.43	64,97	54,70	93,84	62,79	55,73	55,75	42,32	69,33	60.00
Близнецы-про	56.32	58.45	69,53	73,91	61.61	54,63	52,54	59,80	46.53	62,50
Последовательность обезьяна	55,38	67.12	57.48	92.47	58.77	57.81	56,75	63,27	56.58	45.10
Skylark Big Model (Bean Bun)	54,69	68,92	45,65	86.99	56.14	48.18	53,12	44,34	55,26	67.65
Yi-34b-чат	50.00	64,38	49,28	88.36	65,18	62,73	58.87	44,34	71.05	65,31
PCI-Transgpt	49,99	72.19	62,49	82,88	60.45	57.18	54,76	46.69	64,66	50,98
QWEN-14B-чат	49,48	56,85	38.81	76.71	61.40	45,45	43,75	44.12	45,33	56.86
Wen xin yiyan 4.0 (веб -страница)	48.45	79,73	61.59	97.26	65,79	60,91	53,17	48.11	47.37	64,00
Xverse-13b-2-чат	43.30	50,68	43,48	72,92	57.02	47.27	46.88	49,06	63,33	57.84
Минимакса (как по вопросам)	43.30	61.43	30.43	100.00	55,26	33,33	45,16	33,96	40.13	50.00
Baichuan2-13b-Chat	40.62	66.22	39,23	78.77	53,51	52,78	55,47	46.23	56.58	54,90
Iflytek Spark v3.0	38.54	57.43	49,26	83,57	62,28	47.17	46.83	47.17	44,00	43.14
Chatglm3-6b	34,74	41.10	32,61	56.94	54,39	38.18	41.41	42,45	34,25	53,92
Llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43,64	28.91	33,02	32,67	53,92
Китай-Альпака-2-13B	22.40	45,21	20.45	51.37	51.75	39,09	47.66	42,45	27.63	46.94

SuperClue с открытым исходным кодом рейтинги (декабрь 2023 г.)

Рейтинг	Модель	механизм	Общие очки	ОТКРЫТЬ Многочисленные раунды выступлений открытия	Опт Три объективных вопроса о способностях
? ️	QWEN-72B-Chat	Алибаба	69,69	62,31	86.90
?	Yi-34b-чат	Ноль десять тысяч вещей	68.46	61,99	83,56
?	QWEN-14B-чат	Алибаба	61.27	52,04	82,81
4	Baichuan2-13b-Chat	Baichuan Intellent	61.12	54,45	76.67
5	Xverse-13b-2-чат	Yuanxiang Technology	60.46	53,00	77.87
6	Chatglm3-6b	Цингхуа и Мудрость	49,50	42.30	66.31
7	Китай-Альпака-2-13B	Yiming Cui	45,36	38.91	60.40
-	Llama_2_13b_chat	Мета	37.36	34,91	43.09

Улучшение оценки 23 ноября

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

Пример

Способность 1: семантическое понимание и извлечение

Это языковая способность, которая может понять и анализировать значение входной текстовой информации. Модель должна иметь возможность определить значение фраз, предложений и абзацев, а также возможность извлекать ключевую информацию и темы из более крупных блоков текста.

Пример многоуровневого диалога

ПРИМЕЧАНИЕ. В этом примере можно оценить несколько раундов возможностей диалога.

Способность 2: Возможность агента ИИ

Агенты ИИ в настоящее время являются передовыми исследованиями исследований, связанных с большими языковыми моделями.

Сосредоточьтесь на оценке производительности агентов ИИ в двух ключевых способностях: [использование инструмента] и [планирование задач]