Modelo general chino Superclue de referencia integral
【Langya Bang】 -Cena especial de modelo especial, los principales modelos que te importa están aquí
"Evaluación de referencia de modelo de gran modelo chino abril de 2024 Informe"
La última lista de puntos de referencia de evaluación de modelos de gran modelo de superclue (mayo de 2024)
Dirección oficial del sitio web: www.cluebenchmarks.com/superclue.html
Informe técnico: Superclue: un punto de referencia integral de modelos de lenguaje grande chino
[2023-12-27] "Informe de evaluación de referencia de modelo de gran modelo chino 2023 Informe anual" publicado
【2023-12-28】 Release Superclue-December 2023 Lista
【2023-10-19】 SUPERCLUE-AGENT: Agente de referencia de evaluación de tareas nativas del agente chino
【2023-9-12】 Superclue-Safety: China Big Model Multi-Round Confrontation Safety Benchmark
[2023-9-26], Superclue lanzó la lista de modelos chinos en septiembre.
Superclue es un punto de referencia integral de evaluación de modelos grandes.
En comparación con el mes pasado, se agregó el cuerpo inteligente del agente de IA



Los agentes de IA actualmente son puntos críticos de investigación de vanguardia relacionados con modelos de idiomas grandes. Sin embargo, para los agentes de IA, falta una evaluación extensa de los grandes modelos chinos. Para resolver este problema, hemos agregado una nueva evaluación de las capacidades de los agentes de IA a la nueva lista de Superclue. Esta lista se centrará en evaluar el rendimiento de los agentes de IA en dos habilidades clave, [uso de la herramienta] y [planificación de tareas].
| Categoría | Modelo | mecanismo | Puntos totales | Abrir problema de apertura de ronda múltiple | Tres preguntas objetivas sobre la capacidad OPT | usar |
|---|---|---|---|---|---|---|
| - | Gpt4-turbo | Opadai | 90.63 | 90.89 | 90.03 | API |
| - | GPT4 (página web) | Opadai | 83.92 | 80.76 | 91.28 | Página web |
| - | GPT4 (API) | Opadai | 79.84 | 76.24 | 88.24 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 79.02 | 75.00 | 88.38 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 76.54 | 71.78 | 87.64 | API |
| ? | Andesgpt | Opto | 75.04 | 70.01 | 86.76 | API |
| 4 | Sabiduría y palabras claras | Tsinghua y sabiduría | 74.11 | 69.91 | 83.92 | Página web |
| 5 | Moonshot (Kimichat) | El lado oscuro de la luna | 71.92 | 67.25 | 82.81 | Página web |
| - | Wen Xin Yiyan 4.0 (página web) | Baidu | 70.28 | 62.59 | 88.22 | Página web |
| 6 | Qwen-72b-chat | Alibaba | 69.69 | 62.31 | 86.90 | API |
| 7 | Secuencia de mono | Sal y pregunta | 68.98 | 61.01 | 87.59 | API |
| 8 | Yi-34b-chat | Cero diez mil cosas | 68.46 | 61.99 | 83.56 | Modelo |
| 9 | PCI-transgpt | Tecnología Jiadu | 68.33 | 60.41 | 86.81 | API |
| 9 | 360GPT_PRO | 360 | 68.32 | 61.36 | 84.56 | API |
| - | Claude2 | Antrópico | 67.43 | 65.14 | 72.77 | API |
| 11 | Skylark Big Model (Bean Bun) | Byte | 66.35 | 58.53 | 84.60 | Página web |
| - | Gemini-pro | 65.29 | 59.33 | 79.20 | API | |
| - | GPT3.5-TURBO | Opadai | 61.44 | 55.63 | 74.98 | API |
| 12 | Qwen-14b-chat | Alibaba | 61.27 | 52.04 | 82.81 | API |
| 13 | Baichuan2-13b-chat | Baichuan inteligente | 61.12 | 54.45 | 76.67 | Modelo |
| 14 | Xverse-13b-2-chat | Tecnología de Yuanxiang | 60.46 | 53.00 | 77.87 | Modelo |
| 15 | iflytek chispa v3.0 | iflytek | 59.33 | 51.74 | 77.03 | API |
| 16 | Minax (en cuanto a asuntos) | Tecnología xiyu | 58.91 | 50.00 | 79.69 | Página web |
| 17 | Chatglm3-6b | Tsinghua y sabiduría | 49.50 | 42.30 | 66.31 | Modelo |
| 18 | Chino-alpaca-2-13b | Yiming Cui | 45.36 | 38.91 | 60.40 | Modelo |
| - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 | Modelo |
Nota: Si los puntajes en primer plano están relativamente cercanos (menos de 0.03 puntos), se marcarán como un nombre escalonado al clasificar.
| Categoría | Modelo | mecanismo | Abrir problema de apertura de ronda múltiple | Lenguaje y conocimiento | Profesional y habilidades | Uso de herramientas | Seguridad tradicional | usar |
|---|---|---|---|---|---|---|---|---|
| - | Gpt4-turbo | Opadai | 90.89 | 90.21 | 97.00 | 100.00 | 62.75 | API |
| - | GPT4 (página web) | Opadai | 80.76 | 79.49 | 82.87 | 94.63 | 64.71 | Página web |
| - | GPT4 (API) | Opadai | 76.24 | 73.96 | 81.15 | 93.34 | 53.92 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 75.00 | 69.54 | 79.62 | 80.92 | 68.00 | API |
| ? | Tongyi Qianwen 2.0 | Alibaba | 71.78 | 71.58 | 73.40 | 76.32 | 52.94 | API |
| ? | Andesgpt | Opto | 70.01 | 72.23 | 68.80 | 70.71 | 55.88 | API |
| 4 | Sabiduría y palabras claras | Tsinghua y sabiduría | 69.91 | 66.98 | 68.63 | 83.78 | 65.31 | Página web |
| 5 | Moonshot (Kimichat) | El lado oscuro de la luna | 67.25 | 69.72 | 72.57 | 62.19 | 43.14 | Página web |
| - | Claude2 | Antrópico | 65.14 | 55.28 | 73.27 | 65.13 | 83.00 | API |
| - | Wen Xin Yiyan 4.0 (página web) | Baidu | 62.59 | 65.05 | 63.26 | 47.37 | 64.00 | Página web |
| 6 | Qwen-72b-chat | Alibaba | 62.31 | 59.43 | 65.59 | 60.67 | 52.00 | API |
| 7 | Yi-34b-chat | Cero diez mil cosas | 61.99 | 63.90 | 54.55 | 71.05 | 65.31 | Modelo |
| 8 | 360GPT_PRO | 360 | 61.36 | 62.09 | 58.70 | 69.33 | 60.00 | API |
| 9 | Secuencia de mono | Sal y pregunta | 61.01 | 65.81 | 59.99 | 56.58 | 45.10 | API |
| 10 | PCI-transgpt | Tecnología Jiadu | 60.41 | 60.39 | 61.56 | 64.66 | 50.98 | API |
| - | Gemini-pro | 59.33 | 60.50 | 61.43 | 46.53 | 62.50 | API | |
| 11 | Skylark Big Model (Bean Bun) | Byte | 58.53 | 57.75 | 56.42 | 55.26 | 67.65 | Página web |
| - | GPT3.5-TURBO | Opadai | 55.63 | 55.30 | 56.24 | 55.26 | 52.00 | API |
| 12 | Baichuan2-13b-chat | Baichuan inteligente | 54.45 | 57.35 | 48.69 | 56.58 | 54.90 | Modelo |
| 13 | Xverse-13b-2-chat | Tecnología de Yuanxiang | 53.00 | 54.63 | 45.82 | 63.33 | 57.84 | Modelo |
| 14 | Qwen-14b-chat | Alibaba | 52.04 | 54.29 | 48.38 | 45.33 | 56.86 | API |
| 15 | iflytek chispa v3.0 | iflytek | 51.74 | 57.40 | 48.41 | 44.00 | 43.14 | API |
| 16 | Minax (en cuanto a asuntos) | Tecnología xiyu | 50.00 | 53.54 | 45.05 | 40.13 | 50.00 | Página web |
| 17 | Chatglm3-6b | Tsinghua y sabiduría | 42.30 | 46.67 | 36.15 | 34.25 | 53.92 | Modelo |
| 18 | Chino-alpaca-2-13b | Yiming Cui | 38.91 | 46.46 | 29.35 | 27.63 | 46.94 | Modelo |
| - | Llama_2_13b_chat | Meta | 34.91 | 36.55 | 30.21 | 32.67 | 53.92 | Modelo |
| Categoría | Modelo | mecanismo | OPT SCORE | Habilidades básicas | Características chinas | Competencia académica y profesional | usar |
|---|---|---|---|---|---|---|---|
| - | GPT4 (página web) | Opadai | 91.28 | 97.62 | 82.38 | 93.85 | Página web |
| - | Gpt4-turbo | Opadai | 90.03 | 96.99 | 79.16 | 93.93 | API |
| ? ️ | Wen Xin Yiyan 4.0 (API) | Baidu | 88.38 | 91.65 | 86.18 | 87.32 | API |
| - | GPT4 (API) | Opadai | 88.24 | 92.92 | 81.84 | 89.95 | API |
| - | Wen Xin Yiyan 4.0 (página web) | Baidu | 88.22 | 76.48 | 78.32 | 57.05 | Página web |
| ? | Tongyi Qianwen 2.0 | Alibaba | 87.64 | 78.65 | 81.28 | 63.48 | API |
| ? | Secuencia de mono | Sal y pregunta | 87.59 | 91.46 | 80.28 | 90.57 | API |
| 4 | Qwen-72b-chat | Alibaba | 86.90 | 92.21 | 76.65 | 91.05 | API |
| 5 | PCI-transgpt | Tecnología Jiadu | 86.81 | 90.76 | 80.88 | 88.42 | API |
| 6 | Andesgpt | Opto | 86.76 | 92.55 | 76.17 | 90.81 | API |
| 7 | Skylark Big Model (Bean Bun) | Byte | 84.60 | 88.75 | 70.89 | 93.06 | Página web |
| 8 | 360GPT_PRO | 360 | 84.56 | 91.70 | 73.32 | 87.93 | API |
| 9 | Sabiduría y palabras claras | Tsinghua y sabiduría | 83.92 | 89.14 | 73.10 | 88.72 | Página web |
| 10 | Yi-34b-chat | Cero diez mil cosas | 83.56 | 86.90 | 72.81 | 90.12 | Modelo |
| 11 | Qwen-14b-chat | Alibaba | 82.81 | 91.14 | 68.67 | 87.31 | API |
| 12 | Moonshot (Kimichat) | El lado oscuro de la luna | 82.81 | 87.77 | 73.39 | 86.41 | Página web |
| 13 | Minax (en cuanto a asuntos) | Tecnología xiyu | 79.69 | 86.52 | 66.18 | 85.18 | Página web |
| - | Gemini-pro | 79.20 | 83.72 | 70.78 | 82.51 | API | |
| 14 | Xverse-13b-2-chat | Tecnología de Yuanxiang | 77.87 | 84.46 | 62.96 | 83.85 | Modelo |
| 15 | iflytek chispa v3.0 | iflytek | 77.03 | 84.04 | 63.43 | 82.48 | API |
| 16 | Baichuan2-13b-chat | Baichuan inteligente | 76.67 | 80.61 | 63.79 | 84.50 | Modelo |
| - | GPT3.5-TURBO | Opadai | 74.98 | 83.78 | 62.83 | 77.60 | API |
| - | Claude2 | Antrópico | 72.77 | 82.13 | 65.83 | 70.10 | API |
| 17 | Chatglm3-6b | Tsinghua y sabiduría | 66.31 | 72.63 | 54.05 | 71.38 | Modelo |
| 18 | Chino-alpaca-2-13b | Yiming Cui | 60.40 | 70.39 | 47.75 | 62.31 | Modelo |
| - | Llama_2_13b_chat | Meta | 43.09 | 50.41 | 37.22 | 41.48 | Modelo |
| Modelo | calcular | Razonamiento lógico | Código | Enciclopedia de conocimiento | Comprensión del lenguaje | Generar creación | diálogo | Juego de roles | Uso de herramientas | Seguridad tradicional |
|---|---|---|---|---|---|---|---|---|---|---|
| Gpt4-turbo | 97.24 | 97.59 | 96.18 | 89.62 | 87.82 | 89.93 | 89.22 | 94.46 | 100.00 | 62.75 |
| GPT4 (página web) | 81.16 | 85.62 | 81.84 | 79.17 | 81.91 | 78.91 | 78.38 | 79.09 | 94.63 | 64.71 |
| Wen Xin Yiyan 4.0 (API) | 77.84 | 87.84 | 73.19 | 98.63 | 71.93 | 66.36 | 57.03 | 53.77 | 80.92 | 68.00 |
| GPT4 (API) | 77.60 | 85.37 | 80.49 | 78.08 | 73.04 | 72.73 | 75.78 | 70.17 | 93.34 | 53.92 |
| Claude2 | 70.10 | 80.14 | 69.57 | 62.33 | 72.32 | 39.81 | 54.76 | 47.17 | 65.13 | 83.00 |
| Tongyi Qianwen 2.0 | 70.10 | 73.29 | 76.81 | 93.15 | 71.93 | 62.73 | 68.75 | 61.32 | 76.32 | 52.94 |
| Sabiduría y palabras claras | 69.07 | 77.40 | 59.42 | 89.73 | 64.91 | 61.11 | 57.81 | 61.32 | 83.78 | 65.31 |
| Qwen-72b-chat | 68.56 | 68.06 | 60.14 | 95.89 | 63.16 | 42.59 | 48.44 | 47.06 | 60.67 | 52.00 |
| Moonshot (Kimichat) | 68.54 | 79.65 | 69.52 | 100.00 | 66.78 | 59.65 | 61.33 | 60.84 | 62.19 | 43.14 |
| Andesgpt | 62.59 | 72.26 | 71.55 | 88.36 | 74.82 | 64.23 | 68.56 | 65.19 | 70.71 | 55.88 |
| GPT3.5-TURBO | 60.31 | 54.05 | 54.35 | 60.27 | 59.82 | 55.45 | 50.00 | 50.96 | 55.26 | 52.00 |
| 360GPT_PRO | 56.43 | 64.97 | 54.70 | 93.84 | 62.79 | 55.73 | 55.75 | 42.32 | 69.33 | 60.00 |
| Gemini-pro | 56.32 | 58.45 | 69.53 | 73.91 | 61.61 | 54.63 | 52.54 | 59.80 | 46.53 | 62.50 |
| Secuencia de mono | 55.38 | 67.12 | 57.48 | 92.47 | 58.77 | 57.81 | 56.75 | 63.27 | 56.58 | 45.10 |
| Skylark Big Model (Bean Bun) | 54.69 | 68.92 | 45.65 | 86.99 | 56.14 | 48.18 | 53.12 | 44.34 | 55.26 | 67.65 |
| Yi-34b-chat | 50.00 | 64.38 | 49.28 | 88.36 | 65.18 | 62.73 | 58.87 | 44.34 | 71.05 | 65.31 |
| PCI-transgpt | 49.99 | 72.19 | 62.49 | 82.88 | 60.45 | 57.18 | 54.76 | 46.69 | 64.66 | 50.98 |
| Qwen-14b-chat | 49.48 | 56.85 | 38.81 | 76.71 | 61.40 | 45.45 | 43.75 | 44.12 | 45.33 | 56.86 |
| Wen Xin Yiyan 4.0 (página web) | 48.45 | 79.73 | 61.59 | 97.26 | 65.79 | 60.91 | 53.17 | 48.11 | 47.37 | 64.00 |
| Xverse-13b-2-chat | 43.30 | 50.68 | 43.48 | 72.92 | 57.02 | 47.27 | 46.88 | 49.06 | 63.33 | 57.84 |
| Minax (en cuanto a asuntos) | 43.30 | 61.43 | 30.43 | 100.00 | 55.26 | 33.33 | 45.16 | 33.96 | 40.13 | 50.00 |
| Baichuan2-13b-chat | 40.62 | 66.22 | 39.23 | 78.77 | 53.51 | 52.78 | 55.47 | 46.23 | 56.58 | 54.90 |
| iflytek chispa v3.0 | 38.54 | 57.43 | 49.26 | 83.57 | 62.28 | 47.17 | 46.83 | 47.17 | 44.00 | 43.14 |
| Chatglm3-6b | 34.74 | 41.10 | 32.61 | 56.94 | 54.39 | 38.18 | 41.41 | 42.45 | 34.25 | 53.92 |
| Llama_2_13b_chat | 24.74 | 40.54 | 25.36 | 36.11 | 41.07 | 43.64 | 28.91 | 33.02 | 32.67 | 53.92 |
| Chino-alpaca-2-13b | 22.40 | 45.21 | 20.45 | 51.37 | 51.75 | 39.09 | 47.66 | 42.45 | 27.63 | 46.94 |
| Categoría | Modelo | mecanismo | Puntos totales | ABIERTO Múltiples rondas de problemas de apertura | OPTAR Tres preguntas objetivas sobre habilidades |
|---|---|---|---|---|---|
| ? ️ | Qwen-72b-chat | Alibaba | 69.69 | 62.31 | 86.90 |
| ? | Yi-34b-chat | Cero diez mil cosas | 68.46 | 61.99 | 83.56 |
| ? | Qwen-14b-chat | Alibaba | 61.27 | 52.04 | 82.81 |
| 4 | Baichuan2-13b-chat | Baichuan inteligente | 61.12 | 54.45 | 76.67 |
| 5 | Xverse-13b-2-chat | Tecnología de Yuanxiang | 60.46 | 53.00 | 77.87 |
| 6 | Chatglm3-6b | Tsinghua y sabiduría | 49.50 | 42.30 | 66.31 |
| 7 | Chino-alpaca-2-13b | Yiming Cui | 45.36 | 38.91 | 60.40 |
| - | Llama_2_13b_chat | Meta | 37.36 | 34.91 | 43.09 |
1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。
2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。
3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。
Esta es una capacidad de lenguaje que puede comprender y analizar el significado de la información del texto de entrada. El modelo debe poder identificar el significado de frases, oraciones y párrafos, al tiempo que puede extraer información clave y temas de bloques de texto más grandes.

Nota: En este ejemplo, se pueden evaluar múltiples rondas de capacidades de diálogo simultáneamente.
Los agentes de IA actualmente son puntos críticos de investigación de vanguardia relacionados con modelos de idiomas grandes.
Concéntrese en evaluar el desempeño de los agentes de IA en dos habilidades clave: [uso de la herramienta] y [Planificación de tareas]

Esta es una capacidad de lenguaje que requiere comprender y recordar la información de conversación anterior para mantener la coherencia en las respuestas. Esto implica comprender el proceso general y el contexto de la conversación, o generar conversaciones correspondientes.

Esta es una capacidad de lenguaje que puede crear un nuevo contenido textual, como artículos, redacción, cuentos y poesía. Esto implica el uso creativo del lenguaje, al tiempo que tiene en cuenta los lectores de estilo, contexto y objetivo.

Esta es una capacidad de conocimiento que puede proporcionar información de conocimiento como una enciclopedia. Esto implica comprender y responder preguntas sobre una amplia gama de temas, así como proporcionar información precisa, detallada y actualizada.

Esta es una capacidad profesional para comprender y generar código de programación. Esto implica comprender la sintaxis, la estructura y los hábitos de múltiples lenguajes de programación, y cómo resolver problemas de programación.

Nota: En este ejemplo, se pueden evaluar múltiples rondas de capacidades de diálogo simultáneamente.
Esta es una capacidad profesional para comprender y aplicar principios lógicos para razonar. Esto implica analizar problemas, identificar problemas y razonamiento.

Esta es una capacidad profesional que le permite realizar operaciones matemáticas como suma, resta, multiplicación y división, y problemas matemáticos aún más complejos. Esto implica comprender la expresión de problemas matemáticos y cómo resolverlos paso a paso.

Nota: En este ejemplo, se pueden evaluar múltiples rondas de capacidades de diálogo simultáneamente.
Esta es una habilidad perceptiva que le permite desempeñar un papel en un entorno o escenario simulado específico. Esto implica comprender el comportamiento de un personaje en particular, estilo de habla y respuestas apropiadas en una situación particular.

Esta es una capacidad de seguridad para evitar la generación de contenido que puede causar problemas o daños. Esto implica identificar y evitar solicitudes que pueden contener contenido sensible o inapropiado, así como cumplir con las políticas de privacidad y seguridad del usuario.

La lista se actualizará regularmente y se incluirán más modelos chinos disponibles. Las personas e instituciones interesadas en la evaluación de modelos grandes son bienvenidos a contactar y comunicarse.
