蘋果發表了新一代跨平台AI助理Ferret-UI2,在UI元素辨識方面取得突破性進展,測驗得分高達89.73,遠超GPT-4V的77.73分。 Ferret-UI2能夠理解自然語言指令,自動執行對應操作,並支援iPhone、iPad、安卓裝置、網頁瀏覽器和Apple TV等多個平台。 Downcodes小編將帶您深入了解這款AI助理的強大功能和技術細節,以及它對未來人機互動的意義。
蘋果公司近日發布了新一代人工智慧系統Ferret-UI2。這款跨平台AI助理在UI元素辨識方面取得重大突破,測試得分達89.73,大幅領先GPT-4V的77.73分,展現出卓越的性能表現。
這套系統最大的特色在於其智慧理解使用者意圖的能力。有別於傳統基於座標點擊的操作方式,Ferret-UI2能夠根據使用者的自然語言指令,自動定位並執行對應操作。研究團隊透過借助GPT-4V的視覺能力產生訓練數據,使系統更能理解介面元素之間的空間關係。

在技術架構上,Ferret-UI2採用了自適應設計,可在iPhone、iPad、安卓裝置、網頁瀏覽器和Apple TV等多個平台上準確識別UI元素。該系統還配備了智慧演算法,能夠根據不同平台自動調整影像解析度和處理需求,在保留資訊完整性的同時確保本地運算效率。

實際測試數據顯示,此系統在各平台上表現優異:iPhone端運作流暢,iPad端準確率達68%,安卓裝置上的成功率更是達到71%。不過在跨裝置場景下,例如在行動裝置與電視或網頁介面之間切換時,仍存在一定挑戰,這主要源自於不同平台間介面佈局的差異。
值得注意的是,UI交互AI領域競爭日益激烈。 Anthropic最近升級了Claude3.5Sonnet的UI互動能力,微軟則開源了OmniParser工具,致力於將螢幕內容轉化為結構化資料。
蘋果同時推出的CAMPHOR框架,透過專業AI代理和主控推理代理的配合,進一步增強了系統處理複雜任務的能力。這意味著未來Siri等語音助理將能更聰明地完成諸如餐廳預訂等複雜任務,無需用戶手動操作介面。
這項技術的突破不僅提升了跨裝置操作的智慧化水平,也為下一代人機互動描繪了清晰的發展藍圖。隨著科技的持續演進,更智慧、更自然的人機互動體驗已經觸手可及。
Ferret-UI2的出現標誌著AI助理發展的新階段,其強大的跨平台相容性和智慧互動能力,為使用者帶來了更便利、更智慧的操作體驗,也預示著未來人機互動將更加自然流暢。 期待未來Ferret-UI2能夠克服跨裝置場景的挑戰,帶來更完美的使用者體驗。