英國薩里大學和史丹佛大學的研究團隊取得了人工智慧領域一項突破性進展:他們開發了一種新方法,使人工智慧能夠理解人類繪製的線條描草圖,即使這些草圖是由非專業人士繪製的。這項研究成果使得人工智慧在識別場景草圖方面達到了接近人類水平的準確率,為更強大的人機互動和更有效率的設計工作流程奠定了基礎。這項技術突破不僅體現在對草圖中物體的辨識上,更重要的是能夠理解草圖中每一筆畫所代表的意義,這為人工智慧理解人類視覺表達方式提供了新的思路。
英國薩里大學和史丹佛大學的研究團隊開發了一種新方法,教會人工智慧(AI)理解人類線描草圖,即使是非藝術家繪製的。該模型在識別場景草圖方面接近人類水平的表現。

薩里大學視覺、語音和信號處理中心(CVSSP)和薩里人民中心人工智慧研究所(PAI)的講師Yulia Gryaditskaya 博士表示:「草圖是一種強大的視覺溝通語言。它有時甚至比口語更具表現力和靈活性。無論年齡和背景如何,人們都使用繪畫來探索新想法和溝通。然而,人工智慧系統在理解草圖方面一直存在問題。人工智慧必須學會理解圖像。通常情況下,這需要一個費時費力的過程,收集圖像中每個像素的標籤。然後人工智慧從這些標籤中學習。
然而,研究團隊透過草圖和文字描述的組合教會了人工智慧。它學會了對像素進行分組,將其與描述中的類別進行匹配。結果,人工智慧展現出比以往更豐富、更接近人類的理解能力。它能夠以85% 的準確度正確識別和標記風箏、樹、長頸鹿和其他對象,勝過依賴標記像素的其他模型。除了識別複雜場景中的對象,它還可以確定每一筆畫是用來描繪哪個對象的。這種新方法不僅適用於非藝術家繪製的非正式草圖,也適用於沒有明確訓練的物件繪製的草圖。
史丹佛大學心理學助理教授Judith Fan 表示:「繪畫和書寫是最典型的人類活動之一,長期以來一直用於捕捉人們的觀察和想法。這項工作在AI 系統能理解人們嘗試傳達的想法本質方面取得了令人振奮的進展,無論他們是使用圖片還是文字。 SketchX 利用人工智慧,試圖透過我們繪製的方式來理解我們看到世界的方式。
人民中心人工智慧研究所聯合主任、SketchX 負責人宋一哲教授表示:「這項研究是AI 如何增強草圖等基本人類活動的一個典型例子。透過以接近人類的準確度理解粗糙草圖,這項技術有巨大潛力,能增強人們的自然創造力,無論藝術天賦如何。
論文網址:https://arxiv.org/abs/2312.12463
這項研究成果為人工智慧在圖像理解和人機互動領域帶來了新的突破,未來預計將在設計、藝術創作等多個領域中廣泛應用,進一步促進人與人工智慧的協同發展。這項技術的進步也展現了人工智慧在理解人類非結構化資訊方面的巨大潛力。