영국 서리대학교(Surrey University)와 스탠포드대학교(Stanford University) 연구팀이 인공지능 분야에서 획기적인 성과를 거두었다. 인간이 그린 선화 스케치를 인공지능이 이해할 수 있는 새로운 방법을 개발했다. 비전문가가 만든 것입니다. 이 연구 결과를 통해 인공 지능은 장면 스케치를 식별하는 데 있어서 인간 수준에 가까운 정확도를 달성하여 보다 강력한 인간-컴퓨터 상호 작용과 보다 효율적인 디자인 워크플로를 위한 기반을 마련할 수 있습니다. 이러한 기술적 혁신은 스케치 속 개체 인식에만 반영되는 것이 아니라, 더 중요하게는 스케치 속 각 획의 의미를 이해하는 능력에 반영되어 인공지능이 인간의 시각적 표현을 이해할 수 있는 새로운 아이디어를 제공합니다.
영국 서리대학교(University of Surrey)와 스탠포드대학교(Stanford University) 연구진이 예술가가 아닌 사람이 그린 선화 스케치도 인공지능(AI)이 이해할 수 있도록 가르치는 새로운 방법을 개발했다. 이 모델은 장면 스케치를 인식하는 데 있어서 거의 인간 수준의 성능을 달성합니다.

서리 대학교 시각, 음성 및 신호 처리 센터(CVSSP) 및 서리 인민 중앙 인공 지능 연구소(PAI)의 강사인 Yulia Gryaditskaya 박사는 다음과 같이 말했습니다. “스케치는 때로는 스케치보다 강력한 시각적 의사소통 언어입니다. 표현력이 풍부하고 유연합니다. 스케치를 이해하는 도구를 개발하는 것은 더욱 강력한 인간-컴퓨터 상호 작용과 보다 효율적인 디자인 작업 흐름을 향한 첫 걸음입니다. 나이와 배경에 관계없이 사람들은 그림을 통해 새로운 아이디어를 탐구하고 소통합니다. 그러나 AI 시스템은 항상 스케치를 이해하는 데 문제가 있었습니다. AI는 이미지를 이해하는 법을 배워야 합니다. 일반적으로 이를 위해서는 이미지의 모든 픽셀에 대한 레이블을 수집하는 시간 소모적이고 힘든 프로세스가 필요합니다. 그런 다음 AI는 이러한 레이블로부터 학습합니다.
하지만 연구팀은 스케치와 서면 설명을 조합해 AI를 가르쳤다. 픽셀을 그룹화하여 설명의 카테고리와 일치시키는 방법을 학습했습니다. 그 결과, AI는 이전보다 더 풍부하고 긴밀한 인간 이해를 보여주고 있습니다. 연, 나무, 기린 및 기타 물체를 85%의 정확도로 정확하게 식별하고 태그를 지정할 수 있었으며 태그가 지정된 픽셀에 의존하는 다른 모델보다 성능이 뛰어났습니다. 복잡한 장면에서 개체를 식별하는 것 외에도 각 스트로크를 사용하여 묘사하는 개체를 결정할 수도 있습니다. 이 새로운 방법은 예술가가 아닌 비공식 스케치뿐만 아니라 명시적인 교육을 받지 않은 피험자가 만든 스케치에도 적용됩니다.
스탠포드 대학교 심리학과 조교수인 Judith Fan은 다음과 같이 말했습니다. "그림 그리기와 글쓰기는 가장 전형적인 인간 활동 중 하나이며 사람들의 관찰과 생각을 포착하는 데 오랫동안 사용되어 왔습니다. 이 작업은 AI 시스템의 이해 능력을 향상시키는 중요한 단계입니다. 사람들이 전달하려는 아이디어의 본질은 이미지를 사용하든 텍스트를 사용하든 흥미로운 진전이 이루어졌습니다.” 이 연구는 Surrey 대학의 인공 지능 연구소, 특히 SketchX 이니셔티브의 일환으로 수행되었습니다. SketchX는 인공 지능을 사용하여 우리가 그리는 방식을 통해 세상을 보는 방식을 이해하려고 노력합니다.
인민센터 인공지능연구소 공동소장이자 SketchX 대표인 송이제(Song Yizhe) 교수는 “이번 연구는 AI가 스케치 등 기본적인 인간 활동을 어떻게 향상시킬 수 있는지 보여주는 대표적인 사례”라고 말했다. 인간의 정확성과 관련하여 이 기술은 예술적 재능에 관계없이 사람들의 자연스러운 창의성을 향상시킬 수 있는 엄청난 잠재력을 가지고 있습니다.”
논문 주소: https://arxiv.org/abs/2312.12463
이번 연구 결과는 이미지 이해와 인간-컴퓨터 상호 작용 분야에서 인공 지능에 새로운 돌파구를 가져왔으며, 향후 디자인, 예술 창작 및 기타 분야에서 널리 활용되어 인간과 인공 지능의 공동 발전을 더욱 촉진할 것으로 기대됩니다. 지능. 이 기술의 발전은 인간의 구조화되지 않은 정보를 이해하는 데 있어 인공 지능의 엄청난 잠재력을 보여줍니다.