El Laboratorio de Inteligencia Artificial de Shanghai realizó recientemente un "Examen de ingreso a la universidad" único. Siete modelos de IA, incluido el GPT-4o, se sometieron a pruebas integrales en chino, matemáticas e inglés, utilizando el nuevo estándar curricular nacional I en papel y un enfoque de calificación manual para garantizar la calificación. equidad e imparcialidad de la prueba. Esta prueba tiene como objetivo evaluar la capacidad del modelo de IA para manejar las preguntas del examen de ingreso a la universidad y proporcionar datos de referencia para el futuro desarrollo de la tecnología de IA. Los modelos que participan en la prueba cubren muchas instituciones reconocidas en el país y en el extranjero, y muestran las diferentes direcciones y niveles del desarrollo actual de la tecnología de IA.
En el mundo de la inteligencia artificial, el examen de acceso a la universidad ya no es sólo un escenario para los humanos. Recientemente, el Laboratorio de Inteligencia Artificial de Shanghai utilizó un "examen de ingreso a la universidad" único para permitirnos ser testigos de la fortaleza académica de la IA. Adoptaron el sistema de evaluación OpenCompass y sometieron siete modelos de IA, incluido GPT-4o, a pruebas integrales de dominio de chino, matemáticas e inglés.

Esta prueba utilizó el Documento I del nuevo estándar curricular nacional, que aseguró que todos los modelos de código abierto participantes fueran de código abierto antes del examen de ingreso a la universidad, asegurando la imparcialidad de la prueba. Además, estos "respuestas" de IA son juzgadas manualmente por profesores con experiencia en la calificación de exámenes de ingreso a la universidad, esforzándose por acercarse a los estándares de calificación reales.
Los modelos que participan en la evaluación provienen de diferentes orígenes, incluido el modelo de diálogo de código abierto Mixtral8x22B de la startup francesa de IA Mistral, Yi-1.5-34B de Zero One Thousand Things Company, GLM-4-9B de Zhipu AI e InternLM2 de el Laboratorio de Inteligencia Artificial de Shanghai -20B-WQX y la serie Qwen2 de Alibaba. GPT-4o participa en la evaluación como modelo de código cerrado y es solo como referencia.

Se anunciaron los resultados. Qwen2-72B ocupó el primer lugar con una puntuación total de 303 puntos, seguido de GPT-4o con 296 puntos y InternLM2-20B-WQX ocupó el tercer lugar con 295,5 puntos. Estos modelos obtuvieron buenos resultados en materias de chino e inglés, con una puntuación promedio del 67% en chino y del 81% en inglés. Sin embargo, en la materia de matemáticas, la tasa de puntuación promedio de todos los modelos es solo del 36%, lo que demuestra que la IA todavía tiene mucho margen de mejora en el razonamiento matemático.
El profesor de calificación realizó un análisis exhaustivo de la hoja de respuestas del modelo de IA. En las materias chinas, los modelos son generalmente buenos en la lectura y comprensión de textos modernos, pero son ligeramente deficientes en chino clásico y en composición. En términos de matemáticas, aunque los modelos tienen fuertes capacidades de memoria de fórmulas, todavía carecen de una aplicación flexible en el proceso de resolución de problemas. El rendimiento general de la asignatura de inglés es bueno, pero en ciertos tipos de preguntas, algunos modelos tienen tasas de puntuación más bajas.
Este "gran modelo de examen de ingreso a la universidad" no solo nos permite ver el potencial de la IA en el campo académico, sino que también revela sus limitaciones en la comprensión y aplicación del conocimiento. A medida que la tecnología continúa avanzando, tenemos motivos para creer que la IA en el futuro será más inteligente y servirá mejor a la sociedad humana.
A través de este "examen de ingreso a la universidad" de IA, podemos ver claramente los avances y las deficiencias de la tecnología de IA, que proporciona una experiencia valiosa para el desarrollo futuro de la IA y una nueva perspectiva para nuestra comprensión de la inteligencia artificial. Se cree que en un futuro próximo la IA demostrará capacidades más poderosas en más campos.