Einem Forscherteam der University of Surrey und der Stanford University im Vereinigten Königreich ist ein Durchbruch auf dem Gebiet der künstlichen Intelligenz gelungen: Sie haben eine neue Methode entwickelt, die es künstlicher Intelligenz ermöglicht, von Menschen gezeichnete Strichzeichnungen zu verstehen, selbst wenn diese Skizzen es wären von Nicht-Experten erstellt. Dieses Forschungsergebnis ermöglicht es künstlicher Intelligenz, bei der Identifizierung von Szenenskizzen eine Genauigkeit zu erreichen, die nahezu menschlichem Niveau entspricht, und legt damit den Grundstein für eine leistungsfähigere Mensch-Computer-Interaktion und effizientere Design-Workflows. Dieser technologische Durchbruch spiegelt sich nicht nur in der Erkennung von Objekten in der Skizze wider, sondern, was noch wichtiger ist, in der Fähigkeit, die Bedeutung jedes Strichs in der Skizze zu verstehen, was der künstlichen Intelligenz neue Ideen zum Verständnis des menschlichen visuellen Ausdrucks liefert.
Ein Forscherteam der University of Surrey und der Stanford University im Vereinigten Königreich hat eine neue Methode entwickelt, um künstlicher Intelligenz (KI) beizubringen, menschliche Strichzeichnungen zu verstehen, selbst wenn sie von Nicht-Künstlern gezeichnet wurden. Das Modell nähert sich bei der Erkennung von Szenenskizzen der Leistung eines Menschen an.

Dr. Yulia Gryaditskaya, Dozentin am Centre for Vision, Speech and Signal Processing (CVSSP) der University of Surrey und am Surrey People's Central Artificial Intelligence Institute (PAI), sagte: „Skizzieren ist eine leistungsstarke visuelle Kommunikationssprache. Manchmal ist sie sogar noch leistungsfähiger als.“ Gesprochene Sprache. Die Entwicklung von Werkzeugen zum Verstehen von Skizzen ist ein Schritt in Richtung einer leistungsfähigeren Mensch-Computer-Interaktion und effizienterer Design-Workflows. Unabhängig von Alter und Hintergrund nutzen Menschen das Zeichnen, um neue Ideen zu erkunden und zu kommunizieren. Allerdings hatten KI-Systeme schon immer Probleme, Skizzen zu verstehen. KI muss lernen, Bilder zu verstehen. Dies erfordert in der Regel einen zeitaufwändigen und mühsamen Prozess zum Sammeln von Beschriftungen für jedes Pixel im Bild. Aus diesen Labels lernt die KI dann.
Allerdings lehrte das Forschungsteam die KI durch eine Kombination aus Skizzen und schriftlichen Beschreibungen. Es lernte, Pixel zu gruppieren und sie den Kategorien in der Beschreibung zuzuordnen. Infolgedessen zeigt die KI ein umfassenderes und tieferes menschliches Verständnis als je zuvor. Es konnte Drachen, Bäume, Giraffen und andere Objekte mit einer Genauigkeit von 85 % korrekt identifizieren und markieren und übertraf damit andere Modelle, die auf markierten Pixeln beruhten. Neben der Identifizierung von Objekten in komplexen Szenen kann auch bestimmt werden, welches Objekt mit welchem Strich dargestellt wird. Diese neue Methode funktioniert nicht nur für informelle Skizzen, die von Nicht-Künstlern angefertigt wurden, sondern auch für Skizzen, die von Probanden ohne explizite Ausbildung angefertigt wurden.
Judith Fan, Assistenzprofessorin für Psychologie an der Stanford University, sagte: „Zeichnen und Schreiben gehören zu den grundlegendsten menschlichen Aktivitäten und werden seit langem dazu genutzt, die Beobachtungen und Gedanken der Menschen festzuhalten. Diese Arbeit ist ein wichtiger Fortschritt in der Fähigkeit von KI-Systemen, zu verstehen.“ Die Art der Ideen, die die Menschen zu vermitteln versuchen, wurde erzielt, unabhängig davon, ob sie Bilder oder Text verwenden. Die Forschung wurde im Rahmen des People’s Center for Artificial Intelligence Institute, insbesondere seiner SketchX-Initiative, durchgeführt. SketchX nutzt künstliche Intelligenz, um zu verstehen, wie wir die Welt durch die Art und Weise, wie wir zeichnen, sehen.
Professor Song Yizhe, Co-Direktor des Instituts für Künstliche Intelligenz am People's Center und Leiter von SketchX, sagte: „Diese Forschung ist ein Paradebeispiel dafür, wie KI grundlegende menschliche Aktivitäten wie das Skizzieren verbessern kann. Durch das Verständnis grober Skizzen mit nahezu Mit menschlicher Genauigkeit hat diese Technologie ein enormes Potenzial, die natürliche Kreativität der Menschen zu fördern, unabhängig von ihrer künstlerischen Begabung.“
Papieradresse: https://arxiv.org/abs/2312.12463
Dieses Forschungsergebnis hat zu neuen Durchbrüchen in der künstlichen Intelligenz in den Bereichen Bildverständnis und Mensch-Computer-Interaktion geführt. Es wird erwartet, dass es in Zukunft in großem Umfang in Design, künstlerischem Schaffen und anderen Bereichen eingesetzt wird und die kollaborative Entwicklung von Mensch und Künstlichem weiter fördert Intelligenz. Fortschritte in dieser Technologie zeigen auch das enorme Potenzial künstlicher Intelligenz beim Verständnis menschlicher unstrukturierter Informationen.