Fitur "Penggunaan Komputer" Claude Anthropic yang dirilis pada bulan Oktober memberikan agen AI kemampuan yang belum pernah terjadi sebelumnya untuk berinteraksi dengan manusia melalui antarmuka pengguna grafis (GUI), yang menarik perhatian luas. Fungsi ini menerobos keterbatasan antarmuka API tradisional dan memungkinkan Claude mengontrol komputer secara langsung untuk menyelesaikan tugas yang lebih kompleks. Penelitian yang dilakukan oleh National University of Singapore Show Lab melakukan pengujian komprehensif pada Claude untuk mengevaluasi kinerjanya dalam berbagai skenario, menunjukkan kepada kita potensi dan keterbatasan teknologi ini.
Sejak Anthropic meluncurkan fitur "Penggunaan Komputer" Claude pada bulan Oktober, kemampuan agen AI telah menarik perhatian luas. Fitur ini menjadikan Claude model mutakhir pertama yang berinteraksi melalui antarmuka pengguna grafis (GUI) yang sama dengan manusia.
Claude memberi pengguna cara mudah untuk mengotomatiskan operasi tanpa memerlukan antarmuka API dengan mengakses tangkapan layar desktop dan menyelesaikan tugas melalui pengoperasian keyboard dan mouse.

Dalam sebuah penelitian yang dilakukan oleh Show Lab Universitas Nasional Singapura, para peneliti menguji Claude pada berbagai tugas, termasuk pencarian web, penyelesaian alur kerja, produktivitas kantor, dan video game. Tugas-tugas ini menguji kemampuan Claude dalam berbagai skenario, seperti mencari dan membeli item di web, atau mengekstraksi informasi dari situs web dan memasukkannya ke dalam spreadsheet. Melalui tes tersebut, para peneliti mengevaluasi kinerja Claude dalam tiga dimensi: perencanaan, tindakan, dan evaluasi.
Performa Claude sangat mengesankan dalam menjalankan tugas-tugas kompleks. Ini adalah kemampuan untuk merumuskan rencana yang jelas, mengikutinya langkah demi langkah, dan mengevaluasi kemajuannya di setiap langkah. Selain itu, dapat berkoordinasi antara beberapa aplikasi, seperti menyalin halaman web informasi ke dalam spreadsheet. Dalam beberapa kasus, Claude bahkan mampu meninjau kembali hasil di akhir misi untuk memastikan semuanya sesuai target.
Namun, Claude juga melakukan beberapa kesalahan sederhana yang rata-rata pengguna dapat dengan mudah menghindarinya. Misalnya, dalam satu tugas, gagal menyelesaikan langganan karena tidak ada halaman yang dapat digulir ke bawah untuk menemukan tombol yang sesuai.
Ada juga kasus di mana terasa kikuk saat melakukan tugas yang jelas, seperti memilih dan mengganti teks atau mengubah poin menjadi angka. Selain itu, Claude terkadang tidak menyadari kesalahannya atau membuat asumsi yang salah tentang alasan ia gagal mencapai tujuannya.
Para peneliti menunjukkan bahwa kekurangan Claude dalam mekanisme penilaian mandiri mungkin menjadi penyebab kesalahan ini, dan bahwa kerangka agen GUI mungkin perlu ditingkatkan di masa depan untuk menambahkan modul penilaian mandiri yang lebih ketat. Hasilnya juga menunjukkan bahwa agen GUI yang ada tidak sepenuhnya meniru nuansa mendasar bagaimana manusia menggunakan komputer.
Bagi bisnis, potensi penggunaan teks sederhana untuk mendeskripsikan tugas otomatis merupakan hal yang menarik, namun teknologinya belum siap untuk diadopsi dalam skala besar. Perilaku model tidak menentu, sehingga dapat menimbulkan konsekuensi yang tidak terduga dalam aplikasi sensitif. Pada saat yang sama, melakukan operasi melalui antarmuka yang dirancang manusia bukanlah cara tercepat untuk menyelesaikan suatu tugas.
Sebelum penerapannya secara luas, perusahaan juga perlu khawatir tentang risiko keamanan yang ditimbulkan dengan mempercayakan model bahasa besar (LLM) ke mouse dan keyboard. Misalnya, penelitian telah menunjukkan bahwa proxy jaringan rentan terhadap serangan musuh yang dapat dengan mudah diabaikan oleh manusia. Namun, alat seperti Claude dapat membantu tim produk mengeksplorasi ide dan mengulangi solusi, menghemat waktu dan uang sebelum mengembangkan fitur atau layanan baru.
Menyorot:
1. Claude unggul dalam kemampuannya mengotomatiskan tugas-tugas kompleks melalui antarmuka pengguna grafis.
2. Claude membuat kesalahan saat melakukan tugas sederhana, yang mencerminkan kurangnya mekanisme evaluasi diri.
3. Pada tahap ini, teknologi ini tidak cocok untuk aplikasi skala besar, dan perusahaan perlu mewaspadai potensi risiko keamanan.
Secara keseluruhan, fitur "Penggunaan Komputer" Claude menunjukkan potensi besar AI di bidang otomatisasi, tetapi juga mengungkap area yang masih memerlukan peningkatan dalam hal stabilitas dan keamanan. Di masa depan, dengan perkembangan dan peningkatan teknologi yang berkelanjutan, agen AI seperti Claude akan memainkan peran penting di lebih banyak bidang.