Apple telah merilis generasi baru asisten AI lintas platform Ferret-UI2, yang telah membuat kemajuan terobosan dalam pengenalan elemen UI, dengan skor pengujian 89,73, jauh melebihi skor GPT-4V sebesar 77,73. Ferret-UI2 dapat memahami instruksi bahasa alami, secara otomatis melakukan operasi terkait, dan mendukung berbagai platform seperti iPhone, iPad, perangkat Android, browser web, dan Apple TV. Editor Downcodes akan memberi Anda pemahaman mendalam tentang fungsi canggih dan detail teknis asisten AI ini, serta signifikansinya bagi masa depan interaksi manusia-komputer.
Apple baru-baru ini merilis sistem kecerdasan buatan generasi baru, Ferret-UI2. Asisten AI lintas platform ini telah membuat terobosan besar dalam pengenalan elemen UI, dengan skor pengujian 89,73, jauh di atas poin GPT-4V sebesar 77,73, dan menunjukkan kinerja luar biasa.
Fitur terbesar dari sistem ini adalah kemampuannya untuk memahami maksud pengguna secara cerdas. Berbeda dari metode operasi tradisional berdasarkan klik koordinat, Ferret-UI2 dapat secara otomatis menemukan dan melakukan operasi terkait berdasarkan instruksi bahasa alami pengguna. Tim peneliti menghasilkan data pelatihan dengan bantuan kemampuan visual GPT-4V, sehingga sistem dapat lebih memahami hubungan spasial antar elemen antarmuka.

Dari segi arsitektur teknis, Ferret-UI2 mengadopsi desain adaptif dan dapat secara akurat mengidentifikasi elemen UI di berbagai platform seperti iPhone, iPad, perangkat Android, browser web, dan Apple TV. Sistem ini juga dilengkapi dengan algoritma cerdas yang secara otomatis dapat menyesuaikan resolusi gambar dan persyaratan pemrosesan sesuai dengan platform yang berbeda, memastikan efisiensi komputasi lokal sekaligus menjaga integritas informasi.

Data pengujian aktual menunjukkan bahwa sistem bekerja dengan baik di berbagai platform: iPhone berjalan dengan lancar, iPad memiliki tingkat akurasi 68%, dan tingkat keberhasilan pada perangkat Android mencapai 71%. Namun, dalam skenario lintas perangkat, seperti peralihan antara perangkat seluler dan antarmuka TV atau web, masih terdapat tantangan tertentu, terutama karena perbedaan tata letak antarmuka antar platform yang berbeda.
Perlu dicatat bahwa persaingan di bidang AI interaktif UI semakin ketat. Anthropic baru-baru ini meningkatkan kemampuan interaksi UI Claude3.5Sonnet, dan Microsoft telah membuka sumber alat OmniParser, yang didedikasikan untuk mengubah konten layar menjadi data terstruktur.
Kerangka kerja CAMPHOR yang diluncurkan oleh Apple pada saat yang sama semakin meningkatkan kemampuan sistem untuk menangani tugas-tugas kompleks melalui kerja sama agen AI profesional dan agen penalaran ahli. Artinya di masa depan, asisten suara seperti Siri akan mampu menyelesaikan tugas kompleks seperti reservasi restoran dengan lebih cerdas, tanpa mengharuskan pengguna mengoperasikan antarmuka secara manual.
Terobosan teknologi ini tidak hanya meningkatkan tingkat kecerdasan dalam pengoperasian lintas perangkat, namun juga memberikan cetak biru pengembangan yang jelas untuk interaksi manusia-komputer generasi berikutnya. Seiring dengan terus berkembangnya teknologi, pengalaman interaksi manusia-komputer yang lebih cerdas dan alami dapat dijangkau.
Kemunculan Ferret-UI2 menandai tahap baru dalam pengembangan asisten AI. Kompatibilitas lintas platform yang kuat dan kemampuan interaksi cerdas menghadirkan pengalaman pengoperasian yang lebih nyaman dan cerdas bagi pengguna, dan juga menunjukkan bahwa interaksi manusia-komputer akan lebih alami. masa depan. Kami berharap Ferret-UI2 mampu mengatasi tantangan skenario lintas perangkat di masa depan dan menghadirkan pengalaman pengguna yang lebih sempurna.