Descarga SuperCLUE - Descargar el código fuente SuperCLUE

SuperCLUE

Otro código fuente

1.0.0

Descargar

Superplaz

Modelo general chino Superclue de referencia integral

【Langya Bang】 -Cena especial de modelo especial, los principales modelos que te importa están aquí

"Evaluación de referencia de modelo de gran modelo chino abril de 2024 Informe"

La última lista de puntos de referencia de evaluación de modelos de gran modelo de superclue (mayo de 2024)

Dirección oficial del sitio web: www.cluebenchmarks.com/superclue.html

Informe técnico: Superclue: un punto de referencia integral de modelos de lenguaje grande chino

[2023-12-27] "Informe de evaluación de referencia de modelo de gran modelo chino 2023 Informe anual" publicado

【2023-12-28】 Release Superclue-December 2023 Lista

【2023-10-19】 SUPERCLUE-AGENT: Agente de referencia de evaluación de tareas nativas del agente chino

【2023-9-12】 Superclue-Safety: China Big Model Multi-Round Confrontation Safety Benchmark

[2023-9-26], Superclue lanzó la lista de modelos chinos en septiembre.

Superclue es un punto de referencia integral de evaluación de modelos grandes.

En comparación con el mes pasado, se agregó el cuerpo inteligente del agente de IA

Diagrama de estructura de evaluación de capacidad de superclue

Plan de evaluación multidimensional de superclue

¿Por qué se agregan las nuevas capacidades de agente de IA?

Los agentes de IA actualmente son puntos críticos de investigación de vanguardia relacionados con modelos de idiomas grandes. Sin embargo, para los agentes de IA, falta una evaluación extensa de los grandes modelos chinos. Para resolver este problema, hemos agregado una nueva evaluación de las capacidades de los agentes de IA a la nueva lista de Superclue. Esta lista se centrará en evaluar el rendimiento de los agentes de IA en dos habilidades clave, [uso de la herramienta] y [planificación de tareas].

Lista de clasificación general de Superclue (diciembre de 2023)

Categoría	Modelo	mecanismo	Puntos totales	Abrir problema de apertura de ronda múltiple	Tres preguntas objetivas sobre la capacidad OPT	usar
-	Gpt4-turbo	Opadai	90.63	90.89	90.03	API
-	GPT4 (página web)	Opadai	83.92	80.76	91.28	Página web
-	GPT4 (API)	Opadai	79.84	76.24	88.24	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	79.02	75.00	88.38	API
?	Tongyi Qianwen 2.0	Alibaba	76.54	71.78	87.64	API
?	Andesgpt	Opto	75.04	70.01	86.76	API
4	Sabiduría y palabras claras	Tsinghua y sabiduría	74.11	69.91	83.92	Página web
5	Moonshot (Kimichat)	El lado oscuro de la luna	71.92	67.25	82.81	Página web
-	Wen Xin Yiyan 4.0 (página web)	Baidu	70.28	62.59	88.22	Página web
6	Qwen-72b-chat	Alibaba	69.69	62.31	86.90	API
7	Secuencia de mono	Sal y pregunta	68.98	61.01	87.59	API
8	Yi-34b-chat	Cero diez mil cosas	68.46	61.99	83.56	Modelo
9	PCI-transgpt	Tecnología Jiadu	68.33	60.41	86.81	API
9	360GPT_PRO	360	68.32	61.36	84.56	API
-	Claude2	Antrópico	67.43	65.14	72.77	API
11	Skylark Big Model (Bean Bun)	Byte	66.35	58.53	84.60	Página web
-	Gemini-pro	Google	65.29	59.33	79.20	API
-	GPT3.5-TURBO	Opadai	61.44	55.63	74.98	API
12	Qwen-14b-chat	Alibaba	61.27	52.04	82.81	API
13	Baichuan2-13b-chat	Baichuan inteligente	61.12	54.45	76.67	Modelo
14	Xverse-13b-2-chat	Tecnología de Yuanxiang	60.46	53.00	77.87	Modelo
15	iflytek chispa v3.0	iflytek	59.33	51.74	77.03	API
16	Minax (en cuanto a asuntos)	Tecnología xiyu	58.91	50.00	79.69	Página web
17	Chatglm3-6b	Tsinghua y sabiduría	49.50	42.30	66.31	Modelo
18	Chino-alpaca-2-13b	Yiming Cui	45.36	38.91	60.40	Modelo
-	Llama_2_13b_chat	Meta	37.36	34.91	43.09	Modelo

Nota: Si los puntajes en primer plano están relativamente cercanos (menos de 0.03 puntos), se marcarán como un nombre escalonado al clasificar.

Ranking de problemas abiertos de múltiples rondas de superclue (diciembre de 2023)

Categoría	Modelo	mecanismo	Abrir problema de apertura de ronda múltiple	Lenguaje y conocimiento	Profesional y habilidades	Uso de herramientas	Seguridad tradicional	usar
-	Gpt4-turbo	Opadai	90.89	90.21	97.00	100.00	62.75	API
-	GPT4 (página web)	Opadai	80.76	79.49	82.87	94.63	64.71	Página web
-	GPT4 (API)	Opadai	76.24	73.96	81.15	93.34	53.92	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	75.00	69.54	79.62	80.92	68.00	API
?	Tongyi Qianwen 2.0	Alibaba	71.78	71.58	73.40	76.32	52.94	API
?	Andesgpt	Opto	70.01	72.23	68.80	70.71	55.88	API
4	Sabiduría y palabras claras	Tsinghua y sabiduría	69.91	66.98	68.63	83.78	65.31	Página web
5	Moonshot (Kimichat)	El lado oscuro de la luna	67.25	69.72	72.57	62.19	43.14	Página web
-	Claude2	Antrópico	65.14	55.28	73.27	65.13	83.00	API
-	Wen Xin Yiyan 4.0 (página web)	Baidu	62.59	65.05	63.26	47.37	64.00	Página web
6	Qwen-72b-chat	Alibaba	62.31	59.43	65.59	60.67	52.00	API
7	Yi-34b-chat	Cero diez mil cosas	61.99	63.90	54.55	71.05	65.31	Modelo
8	360GPT_PRO	360	61.36	62.09	58.70	69.33	60.00	API
9	Secuencia de mono	Sal y pregunta	61.01	65.81	59.99	56.58	45.10	API
10	PCI-transgpt	Tecnología Jiadu	60.41	60.39	61.56	64.66	50.98	API
-	Gemini-pro	Google	59.33	60.50	61.43	46.53	62.50	API
11	Skylark Big Model (Bean Bun)	Byte	58.53	57.75	56.42	55.26	67.65	Página web
-	GPT3.5-TURBO	Opadai	55.63	55.30	56.24	55.26	52.00	API
12	Baichuan2-13b-chat	Baichuan inteligente	54.45	57.35	48.69	56.58	54.90	Modelo
13	Xverse-13b-2-chat	Tecnología de Yuanxiang	53.00	54.63	45.82	63.33	57.84	Modelo
14	Qwen-14b-chat	Alibaba	52.04	54.29	48.38	45.33	56.86	API
15	iflytek chispa v3.0	iflytek	51.74	57.40	48.41	44.00	43.14	API
16	Minax (en cuanto a asuntos)	Tecnología xiyu	50.00	53.54	45.05	40.13	50.00	Página web
17	Chatglm3-6b	Tsinghua y sabiduría	42.30	46.67	36.15	34.25	53.92	Modelo
18	Chino-alpaca-2-13b	Yiming Cui	38.91	46.46	29.35	27.63	46.94	Modelo
-	Llama_2_13b_chat	Meta	34.91	36.55	30.21	32.67	53.92	Modelo

Clasificación de preguntas objetivas para las tres habilidades principales de Superclue-opt (diciembre de 2023)

Categoría	Modelo	mecanismo	OPT SCORE	Habilidades básicas	Características chinas	Competencia académica y profesional	usar
-	GPT4 (página web)	Opadai	91.28	97.62	82.38	93.85	Página web
-	Gpt4-turbo	Opadai	90.03	96.99	79.16	93.93	API
? ️	Wen Xin Yiyan 4.0 (API)	Baidu	88.38	91.65	86.18	87.32	API
-	GPT4 (API)	Opadai	88.24	92.92	81.84	89.95	API
-	Wen Xin Yiyan 4.0 (página web)	Baidu	88.22	76.48	78.32	57.05	Página web
?	Tongyi Qianwen 2.0	Alibaba	87.64	78.65	81.28	63.48	API
?	Secuencia de mono	Sal y pregunta	87.59	91.46	80.28	90.57	API
4	Qwen-72b-chat	Alibaba	86.90	92.21	76.65	91.05	API
5	PCI-transgpt	Tecnología Jiadu	86.81	90.76	80.88	88.42	API
6	Andesgpt	Opto	86.76	92.55	76.17	90.81	API
7	Skylark Big Model (Bean Bun)	Byte	84.60	88.75	70.89	93.06	Página web
8	360GPT_PRO	360	84.56	91.70	73.32	87.93	API
9	Sabiduría y palabras claras	Tsinghua y sabiduría	83.92	89.14	73.10	88.72	Página web
10	Yi-34b-chat	Cero diez mil cosas	83.56	86.90	72.81	90.12	Modelo
11	Qwen-14b-chat	Alibaba	82.81	91.14	68.67	87.31	API
12	Moonshot (Kimichat)	El lado oscuro de la luna	82.81	87.77	73.39	86.41	Página web
13	Minax (en cuanto a asuntos)	Tecnología xiyu	79.69	86.52	66.18	85.18	Página web
-	Gemini-pro	Google	79.20	83.72	70.78	82.51	API
14	Xverse-13b-2-chat	Tecnología de Yuanxiang	77.87	84.46	62.96	83.85	Modelo
15	iflytek chispa v3.0	iflytek	77.03	84.04	63.43	82.48	API
16	Baichuan2-13b-chat	Baichuan inteligente	76.67	80.61	63.79	84.50	Modelo
-	GPT3.5-TURBO	Opadai	74.98	83.78	62.83	77.60	API
-	Claude2	Antrópico	72.77	82.13	65.83	70.10	API
17	Chatglm3-6b	Tsinghua y sabiduría	66.31	72.63	54.05	71.38	Modelo
18	Chino-alpaca-2-13b	Yiming Cui	60.40	70.39	47.75	62.31	Modelo
-	Llama_2_13b_chat	Meta	43.09	50.41	37.22	41.48	Modelo

Ranking de capacidades básicas de SuperClaz Top Ten (diciembre de 2023)

Modelo	calcular	Razonamiento lógico	Código	Enciclopedia de conocimiento	Comprensión del lenguaje	Generar creación	diálogo	Juego de roles	Uso de herramientas	Seguridad tradicional
Gpt4-turbo	97.24	97.59	96.18	89.62	87.82	89.93	89.22	94.46	100.00	62.75
GPT4 (página web)	81.16	85.62	81.84	79.17	81.91	78.91	78.38	79.09	94.63	64.71
Wen Xin Yiyan 4.0 (API)	77.84	87.84	73.19	98.63	71.93	66.36	57.03	53.77	80.92	68.00
GPT4 (API)	77.60	85.37	80.49	78.08	73.04	72.73	75.78	70.17	93.34	53.92
Claude2	70.10	80.14	69.57	62.33	72.32	39.81	54.76	47.17	65.13	83.00
Tongyi Qianwen 2.0	70.10	73.29	76.81	93.15	71.93	62.73	68.75	61.32	76.32	52.94
Sabiduría y palabras claras	69.07	77.40	59.42	89.73	64.91	61.11	57.81	61.32	83.78	65.31
Qwen-72b-chat	68.56	68.06	60.14	95.89	63.16	42.59	48.44	47.06	60.67	52.00
Moonshot (Kimichat)	68.54	79.65	69.52	100.00	66.78	59.65	61.33	60.84	62.19	43.14
Andesgpt	62.59	72.26	71.55	88.36	74.82	64.23	68.56	65.19	70.71	55.88
GPT3.5-TURBO	60.31	54.05	54.35	60.27	59.82	55.45	50.00	50.96	55.26	52.00
360GPT_PRO	56.43	64.97	54.70	93.84	62.79	55.73	55.75	42.32	69.33	60.00
Gemini-pro	56.32	58.45	69.53	73.91	61.61	54.63	52.54	59.80	46.53	62.50
Secuencia de mono	55.38	67.12	57.48	92.47	58.77	57.81	56.75	63.27	56.58	45.10
Skylark Big Model (Bean Bun)	54.69	68.92	45.65	86.99	56.14	48.18	53.12	44.34	55.26	67.65
Yi-34b-chat	50.00	64.38	49.28	88.36	65.18	62.73	58.87	44.34	71.05	65.31
PCI-transgpt	49.99	72.19	62.49	82.88	60.45	57.18	54.76	46.69	64.66	50.98
Qwen-14b-chat	49.48	56.85	38.81	76.71	61.40	45.45	43.75	44.12	45.33	56.86
Wen Xin Yiyan 4.0 (página web)	48.45	79.73	61.59	97.26	65.79	60.91	53.17	48.11	47.37	64.00
Xverse-13b-2-chat	43.30	50.68	43.48	72.92	57.02	47.27	46.88	49.06	63.33	57.84
Minax (en cuanto a asuntos)	43.30	61.43	30.43	100.00	55.26	33.33	45.16	33.96	40.13	50.00
Baichuan2-13b-chat	40.62	66.22	39.23	78.77	53.51	52.78	55.47	46.23	56.58	54.90
iflytek chispa v3.0	38.54	57.43	49.26	83.57	62.28	47.17	46.83	47.17	44.00	43.14
Chatglm3-6b	34.74	41.10	32.61	56.94	54.39	38.18	41.41	42.45	34.25	53.92
Llama_2_13b_chat	24.74	40.54	25.36	36.11	41.07	43.64	28.91	33.02	32.67	53.92
Chino-alpaca-2-13b	22.40	45.21	20.45	51.37	51.75	39.09	47.66	42.45	27.63	46.94

Ranking de modelos de código abierto de Superclue (diciembre de 2023)

Categoría	Modelo	mecanismo	Puntos totales	ABIERTO Múltiples rondas de problemas de apertura	OPTAR Tres preguntas objetivas sobre habilidades
? ️	Qwen-72b-chat	Alibaba	69.69	62.31	86.90
?	Yi-34b-chat	Cero diez mil cosas	68.46	61.99	83.56
?	Qwen-14b-chat	Alibaba	61.27	52.04	82.81
4	Baichuan2-13b-chat	Baichuan inteligente	61.12	54.45	76.67
5	Xverse-13b-2-chat	Tecnología de Yuanxiang	60.46	53.00	77.87
6	Chatglm3-6b	Tsinghua y sabiduría	49.50	42.30	66.31
7	Chino-alpaca-2-13b	Yiming Cui	45.36	38.91	60.40
-	Llama_2_13b_chat	Meta	37.36	34.91	43.09

Mejora de la evaluación de 23 noviembre

 1. 本次测评中SuperCLUE-Open的超级模型（裁判模型）由10月的GPT4升级为能力更强的GPT4-Turbo，进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比，本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

Ejemplo

Habilidad 1: comprensión y extracción semántica

Esta es una capacidad de lenguaje que puede comprender y analizar el significado de la información del texto de entrada. El modelo debe poder identificar el significado de frases, oraciones y párrafos, al tiempo que puede extraer información clave y temas de bloques de texto más grandes.

Ejemplo de diálogo de múltiples rondas

Nota: En este ejemplo, se pueden evaluar múltiples rondas de capacidades de diálogo simultáneamente.

Habilidad 2: capacidad de agente de IA

Los agentes de IA actualmente son puntos críticos de investigación de vanguardia relacionados con modelos de idiomas grandes.

Concéntrese en evaluar el desempeño de los agentes de IA en dos habilidades clave: [uso de la herramienta] y [Planificación de tareas]