Le Laboratoire d'intelligence artificielle de Shanghai a récemment organisé un « examen d'entrée à l'université » unique. Sept modèles d'IA, dont le GPT-4o, ont subi des tests complets en chinois, en mathématiques et en anglais, en utilisant la nouvelle norme nationale I sur papier et l'approche de notation manuelle pour garantir la réussite. l'équité et l'impartialité du test. Ce test vise à évaluer la capacité du modèle d'IA à gérer les questions de l'examen d'entrée à l'université et à fournir des données de référence pour le développement futur de la technologie de l'IA. Les modèles participant au test couvrent de nombreuses institutions bien connues au pays et à l'étranger, montrant les différentes directions et niveaux de développement actuel de la technologie de l'IA.
Dans le monde de l’intelligence artificielle, l’examen d’entrée à l’université n’est plus seulement une étape réservée aux humains. Récemment, le laboratoire d'intelligence artificielle de Shanghai a organisé un « examen d'entrée à l'université » unique pour nous permettre de constater la force académique de l'IA. Ils ont adopté le système d'évaluation OpenCompass et soumis sept modèles d'IA, dont GPT-4o, à des tests de compétence complets en chinois, en mathématiques et en anglais.

Ce test utilisait le papier I de la nouvelle norme nationale du programme, qui garantissait que tous les modèles open source participants étaient open source avant l'examen d'entrée à l'université, garantissant ainsi l'équité du test. De plus, ces « copies » d'IA sont jugées manuellement par des enseignants expérimentés dans la notation des examens d'entrée à l'université, s'efforçant d'être proches des normes de notation réelles.
Les modèles participant à l'évaluation proviennent d'horizons différents, notamment le modèle de dialogue open source Mixtral8x22B de la startup française d'IA Mistral, Yi-1.5-34B de Zero One Thousand Things Company, GLM-4-9B de Zhipu AI et InternLM2 de le laboratoire d’intelligence artificielle de Shanghai -20B-WQX et la série Qwen2 d’Alibaba. GPT-4o participe à l'évaluation en tant que modèle source fermé et sert uniquement de référence.

Les résultats ont été annoncés. Qwen2-72B s'est classé premier avec un score total de 303 points, suivi de GPT-4o avec 296 points et InternLM2-20B-WQX s'est classé troisième avec 295,5 points. Ces modèles ont obtenu de bons résultats dans les matières chinoises et anglaises, avec un score moyen de 67 % en chinois et de 81 % en anglais. Cependant, dans la matière mathématique, le taux de score moyen de tous les modèles n’est que de 36 %, ce qui montre que l’IA a encore beaucoup de marge d’amélioration dans le raisonnement mathématique.
L'enseignant de notation a effectué une analyse complète de la feuille de réponses du modèle d'IA. Dans les matières chinoises, les modèles sont généralement bons pour lire et comprendre les textes modernes, mais ils sont légèrement déficients en chinois classique et en composition. En termes mathématiques, bien que les modèles disposent de fortes capacités de mémoire de formules, ils manquent encore d’une application flexible dans le processus de résolution de problèmes. Les performances globales de la matière anglaise sont bonnes, mais sur certains types de questions, certains modèles ont des taux de notation inférieurs.
Ce « grand modèle d'examen d'entrée à l'université » nous permet non seulement de voir le potentiel de l'IA dans le domaine académique, mais révèle également ses limites dans la compréhension et l'application des connaissances. À mesure que la technologie continue de progresser, nous avons des raisons de croire qu’à l’avenir, l’IA deviendra plus intelligente et servira mieux la société humaine.
Grâce à cet « examen d'entrée à l'université » d'IA, nous pouvons clairement voir les progrès et les lacunes de la technologie de l'IA, ce qui fournit une expérience précieuse pour le développement futur de l'IA et une nouvelle perspective pour notre compréhension de l'intelligence artificielle. On pense que dans un avenir proche, l’IA démontrera des capacités plus puissantes dans davantage de domaines.