Sebuah tim peneliti dari Universitas Surrey dan Universitas Stanford di Inggris telah mencapai terobosan di bidang kecerdasan buatan: mereka telah mengembangkan metode baru yang memungkinkan kecerdasan buatan untuk memahami sketsa gambar garis yang digambar oleh manusia, meskipun sketsa tersebut adalah sketsa. dibuat oleh non-ahli. Hasil penelitian ini memungkinkan kecerdasan buatan mencapai akurasi yang mendekati tingkat manusia dalam mengidentifikasi sketsa pemandangan, meletakkan dasar bagi interaksi manusia-komputer yang lebih kuat dan alur kerja desain yang lebih efisien. Terobosan teknologi ini tidak hanya tercermin pada pengenalan objek pada sketsa, namun yang lebih penting adalah kemampuan memahami makna setiap guratan pada sketsa, yang memberikan ide-ide baru bagi kecerdasan buatan untuk memahami ekspresi visual manusia.
Sebuah tim peneliti dari Universitas Surrey dan Universitas Stanford di Inggris telah mengembangkan metode baru untuk mengajarkan kecerdasan buatan (AI) untuk memahami sketsa gambar garis manusia, bahkan ketika digambar oleh non-seniman. Model ini mendekati performa tingkat manusia dalam mengenali sketsa pemandangan.

Dr Yulia Gryaditskaya, dosen di Center for Vision, Speech and Signal Processing (CVSSP) Universitas Surrey dan Surrey People's Central Artificial Intelligence Institute (PAI), mengatakan: "Sketsa adalah bahasa komunikasi visual yang hebat. Kadang-kadang bahkan lebih hebat daripada bahasa komunikasi visual lainnya." bahasa lisan. Ekspresif dan fleksibel. Mengembangkan alat untuk memahami sketsa adalah langkah menuju interaksi manusia-komputer yang lebih kuat dan alur kerja desain yang lebih efisien.” Tanpa memandang usia dan latar belakang, orang menggunakan gambar untuk mengeksplorasi ide-ide baru dan berkomunikasi. Namun, sistem AI selalu mengalami masalah dalam memahami sketsa. AI harus belajar memahami gambar. Biasanya, hal ini memerlukan proses pengumpulan label untuk setiap piksel dalam gambar yang memakan waktu dan melelahkan. AI kemudian belajar dari label tersebut.
Namun tim peneliti mengajarkan AI melalui kombinasi sketsa dan deskripsi tertulis. Ia belajar mengelompokkan piksel, mencocokkannya dengan kategori dalam deskripsi. Hasilnya, AI menunjukkan pemahaman manusia yang lebih kaya dan lebih dekat dibandingkan sebelumnya. Ia mampu mengidentifikasi dan menandai layang-layang, pohon, jerapah, dan objek lain dengan benar dengan akurasi 85%, mengungguli model lain yang mengandalkan piksel yang diberi tag. Selain mengidentifikasi objek dalam adegan kompleks, ini juga dapat menentukan objek mana yang digunakan untuk menggambarkan setiap guratan. Metode baru ini berfungsi tidak hanya untuk sketsa informal yang dibuat oleh non-seniman, namun juga untuk sketsa yang dibuat oleh subjek tanpa pelatihan eksplisit.
Judith Fan, asisten profesor psikologi di Universitas Stanford, mengatakan: "Menggambar dan menulis adalah salah satu aktivitas manusia yang paling penting dan telah lama digunakan untuk menangkap pengamatan dan pemikiran manusia. Pekerjaan ini merupakan langkah maju yang penting dalam kemampuan sistem AI untuk memahami sifat dari ide-ide yang ingin disampaikan oleh orang-orang. Kemajuan yang menggembirakan telah dicapai, baik itu menggunakan gambar atau teks.” SketchX menggunakan kecerdasan buatan untuk mencoba memahami cara kita melihat dunia melalui cara kita menggambar.
Profesor Song Yizhe, salah satu direktur Institut Kecerdasan Buatan di People's Center dan kepala SketchX, mengatakan: "Penelitian ini adalah contoh utama bagaimana AI dapat meningkatkan aktivitas dasar manusia seperti membuat sketsa. Dengan memahami sketsa kasar dengan jarak dekat. akurasi manusia, teknologi ini memiliki potensi yang sangat besar. Potensi untuk meningkatkan kreativitas alami manusia, terlepas dari bakat seninya.”
Alamat makalah: https://arxiv.org/abs/2312.12463
Hasil penelitian ini telah membawa terobosan baru pada kecerdasan buatan di bidang pemahaman gambar dan interaksi manusia-komputer. Hal ini diharapkan dapat digunakan secara luas dalam desain, kreasi artistik, dan bidang lainnya di masa depan, yang selanjutnya mendorong pengembangan kolaboratif manusia dan buatan intelijen. Kemajuan teknologi ini juga menunjukkan potensi besar kecerdasan buatan dalam memahami informasi tidak terstruktur manusia.