人工知能技術の急速な発展に伴い、異なる生成AIモデルの強度を効果的に評価して比較する方法が非常に懸念される問題になりました。従来のAIベンチマーク方法は徐々に制限を明らかにしているため、AI開発者はより革新的な評価方法を積極的に調査しています。
最近、「Minecraft Benchmark」(MC-Bench)と呼ばれるWebサイトが登場しました。その独自性は、マイクロソフトのサンドボックスで構築されたゲーム「Minecraft」をプラットフォームとして使用して、プロンプトに基づいてAIモデルを比較することでユーザーがパフォーマンスを評価できるようにすることです。驚くべきことは、この小説プラットフォームの作成者が12年生の学生であることが判明したことです。

MCベンチのWebサイトは、AIモデルを評価する直感的で興味深い方法を提供します。開発者は、テストに参加するAIモデルに異なるプロンプトを入力し、モデルは対応するMinecraftビルを生成します。ユーザーは、どの作業が作成されているかを知ることなく、これらの建物に投票することができます。これにより、AIモデルは、プロンプトに沿ってより良いと思われる作業を選択できます。投票が終わった後にのみ、ユーザーは各建物の背後にある「作成者」を見ます。この「ブラインド選択」メカニズムは、AIモデルの実際の生成能力をより客観的に反映するように設計されています。
Adi Singh氏によると、Minecraftはゲーム自体の人気だけでなく、ベンチマークプラットフォームとして選ばれました。これは歴史上ベストセラーのビデオゲームです。さらに重要なことは、このゲームの広範な人気とその視覚スタイルの親しみやすさにより、このゲームをプレイしたことがない人が、どの四角で作られたパイナップルがより現実的に見えるかを伝えることが比較的簡単になります。彼は、「Minecraftは、人々が[AI開発]の進行を見やすくする」と考えています。これは、単なるテキストメトリックよりも説得力がある視覚的評価方法です。
MCベンチは現在、主に比較的単純なビルディングタスクを実施しています。たとえば、AIモデルにコードを作成するように要求して、「King of Frost」や「原始ビーチのカラフルな熱帯小屋」などのヒントに基づいて対応するゲーム構造を作成します。これは本質的にプログラミングベンチマークですが、賢さは、ユーザーが複雑なコードを掘り下げる必要がなく、直感的な視覚効果に基づいて作業の品質を判断できることです。これにより、プロジェクトの参加とデータ収集の可能性が大幅に向上します。
MCベンチの設計哲学は、一般の人々がAIテクノロジーの開発レベルをより直感的に感じることを可能にすることです。 「現在のランキングは、これらのモデルでの私の個人的な経験と非常に一致しています。これは、多くのプレーンテキストベンチマークとは異なります」とシンは言いました。彼は、MCベンチが関連会社に貴重なリファレンスを提供して、AIの研究開発が正しいかどうかを判断するのに役立つと考えています。
MCベンチはAdi Singhによって開始されましたが、その背後にあるボランティア貢献者のグループも集まりました。人類、Google、Openai、Alibabaを含むいくつかのトップAI企業が、プロジェクトを使用してベンチマークを実行するための補助金を提供していることに言及する価値があります。ただし、MC-BenchのWebサイトでは、これらの企業はそうでなければプロジェクトに関連付けられていないと述べています。
シンはまた、MCベンチの将来の見通しでいっぱいです。彼は、現在進行中の単純な建設は出発点に過ぎず、将来の長期的な計画と目標指向のタスクに拡張される可能性があると述べました。彼は、AIの「エージェント推論」機能をテストするための安全で制御可能な媒体になる可能性があると考えています。
MCベンチに加えて、Street Fighterなどの他のゲームは、AIの実験的ベンチマークとしても使用されていると思います。AIベンチマークはそれ自体が非常に熟練した領域であることを反映しています。 AIモデルは、トレーニング中の特定のタイプの問題、特に暗記記憶または基本的な推論を必要とする問題について最適化されているため、従来の標準化された評価には「ホームフィールドの利点」がしばしばあります。たとえば、OpenaiのGPT-4はLSAT試験で88%の優れた結果を達成しましたが、「Strawberry」という言葉に「r」がいくつあるかはわかりませんでした。

AnthropicのClaude 3.7Sonnetは、標準化されたソフトウェアエンジニアリングベンチマークで62.3%の精度を達成しましたが、Pokémonをプレイすることに関しては、ほとんどの5歳の子供ほど良くありませんでした。
MCベンチの出現は、生成AIモデルの能力を評価するための斬新で理解しやすい視点を提供します。よく知られているゲームプラットフォームを活用することにより、複雑なAIテクノロジー機能を直感的な視覚比較に変換し、より多くの人々がAI評価と認知プロセスに参加できるようにします。この評価方法の実際の価値はまだ議論中ですが、間違いなくAIの開発を観察するための新しいウィンドウを提供します。
プロジェクトの入り口:https://top.aibase.com/tool/mc-bench