英国のサリー大学とスタンフォード大学の研究者チームは、人工知能の分野で画期的な進歩を遂げました。彼らは、たとえ人間が描いた線画のスケッチを人工知能が理解できるようにする新しい方法を開発しました。の専門家ではない人によって作成されました。この研究結果により、人工知能はシーンのスケッチを識別する際に人間レベルに近い精度を達成できるようになり、より強力な人間とコンピューターの対話とより効率的な設計ワークフローの基礎が築かれます。この技術的進歩は、スケッチ内のオブジェクトの認識に反映されるだけでなく、より重要なことに、スケッチ内の各ストロークの意味を理解する能力にも反映されており、これは人工知能が人間の視覚表現を理解するための新しいアイデアを提供します。
英国のサリー大学とスタンフォード大学の研究チームは、芸術家ではない人が描いた場合でも人間の線画のスケッチを理解できるように人工知能(AI)に教える新しい方法を開発した。このモデルは、シーンのスケッチを認識する際に人間レベルに近いパフォーマンスを実現します。

サリー大学視覚・音声・信号処理センター(CVSSP)およびサリー人民中央人工知能研究所(PAI)の講師であるユリア・グリヤディツカヤ博士は、「スケッチは強力なビジュアルコミュニケーション言語であり、時にはそれよりもさらに強力です。表現力豊かで柔軟なスケッチを理解するためのツールを開発することは、より強力な人間とコンピューターの対話とより効率的な設計ワークフローへの一歩です。」年齢や背景に関係なく、人々は新しいアイデアを模索し、コミュニケーションをとるために絵を描きます。しかし、AI システムにはスケッチを理解するという問題が常にありました。 AIは画像を理解することを学ばなければなりません。通常、これには、画像内のすべてのピクセルのラベルを収集する、時間と労力のかかるプロセスが必要です。その後、AI はこれらのラベルから学習します。
しかし、研究チームはスケッチと記述による説明を組み合わせてAIに教育しました。ピクセルをグループ化して、説明内のカテゴリに一致させることを学習しました。その結果、AI はこれまで以上に豊かでより近い人間理解を示しています。凧、木、キリン、その他のオブジェクトを 85% の精度で正確に識別してタグ付けすることができ、タグ付けされたピクセルに依存する他のモデルを上回りました。複雑なシーン内のオブジェクトを識別するだけでなく、各ストロークがどのオブジェクトを描写するために使用されているかを判断することもできます。この新しい方法は、アーティストではない非公式のスケッチだけでなく、明示的なトレーニングを受けずに被験者が作成したスケッチにも使用できます。
スタンフォード大学心理学の助教授ジュディス・ファン氏は、「絵を描いたり書いたりすることは最も典型的な人間の活動の一つであり、人々の観察や思考を捉えるために長い間使われてきた。この研究はAIシステムの理解能力において重要な前進である」と述べた。画像を使用するかテキストを使用するかにかかわらず、人々が伝えようとしているアイデアの性質について、素晴らしい進歩が見られました。この研究は、サリー大学人工知能研究所、特に SketchX イニシアチブの一環として実施されました。」 SketchX は人工知能を使用して、描画方法を通じて世界の見方を理解しようとします。
人民センター人工知能研究所の共同所長であり、SketchX の責任者である Song Yizhe 教授は、「この研究は、AI がスケッチなどの人間の基本的な活動をどのように強化できるかを示す代表的な例です。人間の正確さ、このテクノロジーには大きな可能性があり、芸術的才能に関係なく、人々の自然な創造性を高める可能性があります。」
論文アドレス: https://arxiv.org/abs/2312.12463
この研究成果は、画像理解や人間とコンピュータのインタラクションの分野で人工知能に新たなブレークスルーをもたらし、将来的にはデザインや芸術創作などの分野で広く活用され、人間と人工知能の協働開発がさらに促進されることが期待されます。知能。このテクノロジーの進歩は、人間の非構造化情報を理解する上での人工知能の大きな可能性も示しています。