O Laboratório de Inteligência Artificial de Xangai conduziu recentemente um "exame de admissão à faculdade" exclusivo. Sete modelos de IA, incluindo GPT-4o, foram submetidos a testes abrangentes em chinês, matemática e inglês, usando o novo padrão curricular nacional I e a abordagem manual para garantir a classificação. justiça e imparcialidade do teste. Este teste tem como objetivo avaliar a capacidade do modelo de IA de lidar com questões do vestibular e fornecer dados de referência para o desenvolvimento futuro de tecnologia de IA. Os modelos participantes do teste abrangem muitas instituições conhecidas no país e no exterior, mostrando as diferentes direções e níveis do atual desenvolvimento da tecnologia de IA.
No mundo da inteligência artificial, o vestibular não é mais apenas uma etapa do ser humano. Recentemente, o Laboratório de Inteligência Artificial de Xangai usou um "exame de admissão à faculdade" exclusivo para nos permitir testemunhar a força acadêmica da IA. Adotaram o sistema de avaliação OpenCompass e submeteram sete modelos de IA, incluindo o GPT-4o, a testes abrangentes de proficiência em chinês, matemática e inglês.

Este teste utilizou o National New Curriculum Standard Volume I, que garantiu que todos os modelos de código aberto participantes tivessem sido de código aberto antes do vestibular, garantindo a imparcialidade do teste. Além disso, esses “respostas” de IA são avaliados manualmente por professores com experiência em notas de vestibular, buscando estar próximos dos padrões reais de notas.
Os modelos participantes da avaliação vêm de diferentes origens, incluindo o modelo de diálogo de código aberto Mixtral8x22B da startup francesa de IA Mistral, Yi-1.5-34B da Zero One Thousand Things Company, GLM-4-9B da Zhipu AI e InternLM2 da o Laboratório de Inteligência Artificial de Xangai -20B-WQX e a série Qwen2 do Alibaba. O GPT-4o participa da avaliação como modelo de código fechado e serve apenas como referência.

Os resultados foram anunciados. Qwen2-72B ficou em primeiro lugar com uma pontuação total de 303 pontos, seguido por GPT-4o com 296 pontos, e InternLM2-20B-WQX ficou em terceiro lugar com 295,5 pontos. Esses modelos tiveram um bom desempenho nas disciplinas de chinês e inglês, com uma pontuação média de 67% em chinês e 81% em inglês. Porém, na disciplina de matemática, a pontuação média de todos os modelos é de apenas 36%, mostrando que a IA ainda tem muito espaço para melhorias no raciocínio matemático.
O professor de avaliação conduziu uma análise abrangente da folha de respostas do modelo de IA. Nas disciplinas chinesas, os modelos são geralmente bons na leitura e compreensão de textos modernos, mas são ligeiramente deficientes no chinês clássico e na composição. Em termos de matemática, embora os modelos tenham fortes capacidades de memória de fórmulas, ainda carecem de aplicação flexível no processo de resolução de problemas. O desempenho geral da disciplina de Inglês é bom, mas em certos tipos de questões, alguns modelos apresentam taxas de pontuação mais baixas.
Este “grande modelo de vestibular” não só nos permite ver o potencial da IA no campo acadêmico, mas também revela suas limitações na compreensão e aplicação do conhecimento. À medida que a tecnologia continua a avançar, temos razões para acreditar que a IA do futuro se tornará mais inteligente e servirá melhor a sociedade humana.
Através deste "exame de admissão à faculdade" de IA, podemos ver claramente o progresso e as deficiências da tecnologia de IA, que fornece uma experiência valiosa para o desenvolvimento futuro da IA e uma nova perspectiva para a nossa compreensão da inteligência artificial. Acredita-se que, num futuro próximo, a IA demonstrará capacidades mais poderosas em mais campos.