2024 年の大学入学試験では、9 つの大型 AI モデルが大学入学試験、特に超難関の河南省試験を受けるという前例のない挑戦に参加しました。メディアが主催するこのテストは、学術分野における AI の実際の能力を評価し、AI と人間の知能の違いを理解するための貴重なデータを提供することを目的としています。このテストの結果は目を引くもので、一部の AI モデルの結果は第一線の結果を上回っており、幅広い注目と熱い議論を呼び起こし、また、AI 技術の将来の開発方向に新たな考え方を与えました。
テストに参加した9台のAIのうち、4台のAIのスコアが河南大学入学試験の第一ラインを超えた。 GPT-4oが562点の高得点で1位を41点上回り1位を獲得、バイトダンスのDoubaoが542.5点で僅差で続き、国内モデルの中で最高となった。

AIは文系科目、特に中国語や英語の科目では優れたパフォーマンスを発揮しますが、理系科目、特に数学ではそれほど優れていません。 AI は言語科目において明らかな利点を示しており、古代の詩を理解する能力には目を見張るものがあります。

単純な推論問題に対する AI のパフォーマンスは許容範囲内ですが、複雑な導出と証明を必要とする問題に対する AI のパフォーマンスは低く、論理能力を改善する必要があることが示されています。文系総合では地理科目の成績が最も悪かったが、理系総合では生物科目の成績が比較的良かった。 GPT-4o は、政治科目で 91.5 点の高スコアを獲得し、優れた成績を収めました。
試験方法と採点基準
テストラウンド: ランダム性の影響を軽減するために、すべての被験者は 2 ラウンドにわたってテストされ、平均スコアが最終スコアとして採用されました。
入力形式:数式はMarkdown/LaTeX形式で入力されます。画像質問の場合は、モデルの認識能力に応じて対応する画像とテキストが入力されます。
テスト運用: 専門の AI データ サービス プロバイダーが、統一および標準化されたテスト スクリーンショットを実施して、テストの公平性を確保します。
採点方法: 採点の公平性を確保するために、人間の受験者に対しても同じ採点基準が使用されます。
AI が大学入学試験に参加するというこの試みは、特定の分野における AI の利点を実証するだけでなく、論理的推論と数学的証明における AI の欠点も明らかにしています。ある AI 候補者がエッセイで引用したように、「道は長くて、私は上へ下へと探索していきます。」未知の世界。このテストを通じて、AIの知能レベルをより深く理解することができ、今後のAIの発展方向についても貴重な参考となります。
候補のリストには、OpenAI の GPT-4o、ByteDance の Doubao、Baidu の Wenxin 4.0 などの有名な AI 製品が含まれており、今回の大学入学試験でのパフォーマンスが AI テクノロジーの発展に大きな影響を与えることは間違いありません。
この AI 大学入学試験実験は、人工知能開発の現状と将来の方向性についての深い洞察を私たちに提供し、また、一般的な人工知能の追求において私たちがまだ直面している課題を浮き彫りにします。今後、AIはより多くの分野でその可能性を発揮し、人類社会にさらなる発展をもたらすと信じています。