No vestibular de 2024, nove grandes modelos de IA participaram do desafio sem precedentes de realizar o vestibular, especialmente o extremamente difícil exame de Henan. Este teste organizado pela mídia tem como objetivo avaliar as reais capacidades da IA no campo acadêmico e fornecer dados valiosos para a nossa compreensão das diferenças entre IA e inteligência humana. Os resultados deste teste são atraentes. Os resultados de alguns modelos de IA excederam até os resultados de primeira linha, o que despertou atenção generalizada e discussões acaloradas e forneceu novas ideias para a direção futura do desenvolvimento da tecnologia de IA.
Entre as nove IAs que participaram do teste, as pontuações de quatro IAs ultrapassaram a primeira linha do Exame de Admissão ao Colégio Henan. GPT-4o conquistou o primeiro lugar com pontuação máxima de 562 pontos, ultrapassando a primeira linha em 41 pontos, enquanto Doubao da ByteDance seguiu de perto com 542,5 pontos, tornando-se o melhor entre os modelos nacionais.

A IA tem um bom desempenho em disciplinas de artes liberais, especialmente em disciplinas de chinês e inglês, mas não tão bem em disciplinas de ciências, especialmente em matemática. Pode-se ver que a IA tem mostrado vantagens óbvias em assuntos linguísticos, e sua capacidade de compreender a poesia antiga é impressionante.

O desempenho da IA em questões de raciocínio simples é aceitável, mas o seu desempenho em questões que requerem derivação e prova complexas é fraco, mostrando que a sua capacidade lógica precisa de ser melhorada. Na abrangência de artes liberais, a disciplina de geografia teve o pior desempenho, enquanto na abrangência de ciências, a disciplina de biologia teve um desempenho relativamente bom. O GPT-4o teve excelente desempenho na área política com pontuação alta de 91,5 pontos.
Métodos de teste e padrões de pontuação
Rodadas de teste: Para reduzir o impacto da aleatoriedade, todos os sujeitos foram testados em duas rodadas, e a pontuação média foi considerada a pontuação final.
Formato de entrada: as fórmulas são inseridas no formato Markdown/LaTeX. Para questões de imagem, as imagens e o texto correspondentes são inseridos de acordo com as capacidades de reconhecimento do modelo.
Operação de teste: um provedor profissional de serviços de dados de IA conduz capturas de tela de teste unificadas e padronizadas para garantir a imparcialidade do teste.
Método de pontuação: Os mesmos padrões de pontuação são usados com candidatos humanos para garantir a imparcialidade da pontuação.
Essa tentativa da IA de participar do vestibular não apenas demonstra as vantagens da IA em áreas específicas, mas também expõe suas deficiências no raciocínio lógico e nas provas matemáticas. Como um candidato à IA citou em seu ensaio: “O caminho é longo e longo, e vou pesquisar de cima a baixo”. Este não é apenas um retrato do desenvolvimento da IA, mas também uma descrição vívida da exploração contínua da IA pelos seres humanos. o mundo desconhecido. Através deste teste, temos uma compreensão mais profunda do nível de inteligência da IA e também fornece uma referência valiosa para a direção futura do desenvolvimento da IA.
A lista de candidatos inclui produtos de IA bem conhecidos, como GPT-4o da OpenAI, Doubao da ByteDance e Wenxin 4.0 da Baidu. Seu desempenho neste vestibular terá, sem dúvida, um impacto profundo no desenvolvimento da tecnologia de IA.
Este experimento de exame de admissão à faculdade de IA nos fornece insights profundos sobre o status atual e a direção futura do desenvolvimento da inteligência artificial, e também destaca os desafios que ainda enfrentamos na busca pela inteligência artificial geral. Acredito que, no futuro, a IA mostrará o seu potencial em mais domínios e trará maior progresso à sociedade humana.