上海人工知能研究所は最近、GPT-4o を含む 7 つの AI モデルに対して、国家新カリキュラム標準 I の論文と手動採点のアプローチを使用した包括的なテストを実施しました。試験の公平性と公平性。このテストは、AIモデルの大学入試問題への対応能力を評価し、今後のAI技術開発の参考データを提供することを目的としています。テストに参加したモデルは国内外の多くの著名な機関をカバーしており、現在のAI技術開発のさまざまな方向性とレベルを示しています。
人工知能の世界では、大学受験はもはや人間だけの舞台ではありません。最近、上海人工知能研究所は独自の「大学入学試験」を実施し、AIの学力を証明しました。 OpenCompassの評価システムを採用し、GPT-4oを含む7つのAIモデルに対して中国語、数学、英語の総合技能試験を実施した。

このテストでは、新しい学習指導要領のペーパー I が使用され、参加するすべてのオープンソース モデルが大学入学試験前にオープンソース化されることが保証され、テストの公平性が確保されました。さらに、このAI「答案」は大学入試の採点経験のある教員が手作業で判定し、実際の採点基準に近づけるよう努めている。
評価に参加するモデルは、フランスの AI スタートアップ Mistral のオープンソース Mixtral8x22B 対話モデル、Zero One Thousand Things Company の Yi-1.5-34B、Zhipu AI の GLM-4-9B、および InternLM2 など、さまざまな背景から来ています。上海人工知能研究所 -20B-WQX、アリババの Qwen2 シリーズ。 GPT-4o はクローズド ソース モデルとして評価に参加しており、参照のみを目的としています。

結果が発表され、合計スコア303点でQwen2-72Bが1位、296点でGPT-4o、295.5点で3位にInternLM2-20B-WQXがランクインした。これらのモデルは中国語と英語の科目で良好な成績を収め、中国語で 67%、英語で 81% の平均スコアを獲得しました。しかし、数学科目では全モデルの平均得点率が36%にとどまっており、AIの数的推論にはまだまだ改善の余地があることが分かりました。
採点教師はAIモデルの解答用紙を総合的に分析した。中国語の科目では、モデルは一般的に現代文の読解と理解には優れていますが、漢文と作文はやや苦手です。数学に関して言えば、モデルは強力な数式記憶能力を備えていますが、問題解決プロセスにおける柔軟な適用にはまだ欠けています。英語科目の全体的なパフォーマンスは良好ですが、特定の質問タイプでは、一部のモデルの得点率が低くなります。
この「ビッグモデル大学入試」は、学問分野におけるAIの可能性を示すだけでなく、知識の理解と応用におけるAIの限界も明らかにする。テクノロジーが進歩し続けるにつれて、将来の AI はより賢くなり、人間社会により良いサービスを提供できるようになると信じる理由があります。
このAI「大学入試」を通じて、AI技術の進歩と欠点が明確にわかり、今後のAI開発にとって貴重な経験となり、人工知能を理解する上で新たな視点を得ることができました。近い将来、AIはより多くの分野でより強力な能力を発揮すると考えられています。