Apple ได้เปิดตัว Ferret-UI2 ผู้ช่วย AI ข้ามแพลตฟอร์มเจเนอเรชั่นใหม่ ซึ่งมีความก้าวหน้าอย่างก้าวกระโดดในการจดจำองค์ประกอบ UI ด้วยคะแนนทดสอบ 89.73 ซึ่งสูงกว่าคะแนน GPT-4V 77.73 มาก Ferret-UI2 สามารถเข้าใจคำสั่งภาษาธรรมชาติ ดำเนินการที่เกี่ยวข้องโดยอัตโนมัติ และรองรับหลายแพลตฟอร์ม เช่น iPhone, iPad, อุปกรณ์ Android, เว็บเบราว์เซอร์ และ Apple TV เครื่องมือแก้ไข Downcodes จะทำให้คุณมีความเข้าใจในเชิงลึกเกี่ยวกับฟังก์ชันอันทรงพลังและรายละเอียดทางเทคนิคของผู้ช่วย AI นี้ รวมถึงความสำคัญของการมีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ในอนาคต
Apple เพิ่งเปิดตัวระบบปัญญาประดิษฐ์รุ่นใหม่ Ferret-UI2 ผู้ช่วย AI ข้ามแพลตฟอร์มนี้ได้สร้างความก้าวหน้าครั้งใหญ่ในการจดจำองค์ประกอบ UI ด้วยคะแนนทดสอบที่ 89.73 ซึ่งเหนือกว่า GPT-4V ที่มีคะแนน 77.73 อย่างมีนัยสำคัญ ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม
คุณลักษณะที่ใหญ่ที่สุดของระบบนี้คือความสามารถในการเข้าใจความตั้งใจของผู้ใช้อย่างชาญฉลาด Ferret-UI2 แตกต่างจากวิธีดำเนินการแบบดั้งเดิมที่อิงตามการคลิกตามพิกัด โดยสามารถค้นหาและดำเนินการที่เกี่ยวข้องได้โดยอัตโนมัติตามคำแนะนำในภาษาธรรมชาติของผู้ใช้ ทีมวิจัยสร้างข้อมูลการฝึกอบรมด้วยความช่วยเหลือของความสามารถด้านการมองเห็นของ GPT-4V ทำให้ระบบเข้าใจความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบอินเทอร์เฟซได้ดีขึ้น

ในแง่ของสถาปัตยกรรมทางเทคนิค Ferret-UI2 ใช้การออกแบบที่ปรับเปลี่ยนได้และสามารถระบุองค์ประกอบ UI ได้อย่างแม่นยำบนหลายแพลตฟอร์ม เช่น iPhone, iPad, อุปกรณ์ Android, เว็บเบราว์เซอร์ และ Apple TV ระบบยังมาพร้อมกับอัลกอริธึมอัจฉริยะที่สามารถปรับความละเอียดของภาพและข้อกำหนดในการประมวลผลได้โดยอัตโนมัติตามแพลตฟอร์มที่แตกต่างกัน ช่วยให้มั่นใจถึงประสิทธิภาพการประมวลผลในท้องถิ่นในขณะที่ยังคงรักษาความสมบูรณ์ของข้อมูล

ข้อมูลการทดสอบจริงแสดงให้เห็นว่าระบบทำงานได้ดีบนแพลตฟอร์มต่างๆ: iPhone ทำงานได้อย่างราบรื่น iPad มีอัตราความแม่นยำ 68% และอัตราความสำเร็จบนอุปกรณ์ Android ถึง 71% อย่างไรก็ตาม ในสถานการณ์แบบข้ามอุปกรณ์ เช่น การสลับระหว่างอุปกรณ์มือถือและทีวีหรือเว็บอินเทอร์เฟซ ยังคงมีความท้าทายบางประการ สาเหตุหลักมาจากความแตกต่างในรูปแบบอินเทอร์เฟซระหว่างแพลตฟอร์มที่ต่างกัน
เป็นที่น่าสังเกตว่าการแข่งขันในด้าน UI แบบโต้ตอบ AI นั้นรุนแรงมากขึ้น เมื่อเร็วๆ นี้ Anthropic ได้อัปเกรดความสามารถในการโต้ตอบ UI ของ Claude3.5Sonnet และ Microsoft ได้เปิดซอร์สเครื่องมือ OmniParser ซึ่งมีไว้สำหรับการแปลงเนื้อหาบนหน้าจอให้เป็นข้อมูลที่มีโครงสร้างโดยเฉพาะ
เฟรมเวิร์ก CAMPHOR ที่ Apple เปิดตัวในเวลาเดียวกันช่วยเพิ่มความสามารถของระบบในการจัดการงานที่ซับซ้อนผ่านความร่วมมือของตัวแทน AI มืออาชีพและตัวแทนการให้เหตุผลหลัก ซึ่งหมายความว่าในอนาคต ระบบสั่งงานด้วยเสียง เช่น Siri จะสามารถทำงานที่ซับซ้อน เช่น การจองร้านอาหารได้อย่างชาญฉลาดยิ่งขึ้น โดยที่ผู้ใช้ไม่ต้องดำเนินการอินเทอร์เฟซด้วยตนเอง
ความก้าวหน้าทางเทคโนโลยีนี้ไม่เพียงแต่ปรับปรุงระดับความฉลาดในการทำงานข้ามอุปกรณ์เท่านั้น แต่ยังดึงพิมพ์เขียวการพัฒนาที่ชัดเจนสำหรับการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์รุ่นต่อไปอีกด้วย ในขณะที่เทคโนโลยีมีการพัฒนาอย่างต่อเนื่อง ประสบการณ์ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่ชาญฉลาดและเป็นธรรมชาติมากขึ้นก็อยู่ใกล้แค่เอื้อม
การเกิดขึ้นของ Ferret-UI2 ถือเป็นก้าวใหม่ในการพัฒนาผู้ช่วย AI ความเข้ากันได้ข้ามแพลตฟอร์มที่แข็งแกร่งและความสามารถในการโต้ตอบอัจฉริยะทำให้ผู้ใช้ได้รับประสบการณ์การทำงานที่สะดวกและชาญฉลาดยิ่งขึ้น และยังบ่งชี้ว่าการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์จะเป็นธรรมชาติมากขึ้น อนาคตที่ราบรื่น เราหวังว่า Ferret-UI2 จะสามารถเอาชนะความท้าทายของสถานการณ์ข้ามอุปกรณ์ได้ในอนาคต และนำประสบการณ์ผู้ใช้ที่สมบูรณ์แบบยิ่งขึ้นมาให้