Apple은 테스트 점수 89.73으로 GPT-4V의 77.73점을 훨씬 뛰어 넘는 UI 요소 인식 분야에서 획기적인 발전을 이룬 차세대 크로스 플랫폼 AI 보조자 Ferret-UI2를 출시했습니다. Ferret-UI2는 자연어 명령을 이해하고 해당 작업을 자동으로 수행할 수 있으며 iPhone, iPad, Android 장치, 웹 브라우저 및 Apple TV와 같은 다양한 플랫폼을 지원합니다. 다운코드 편집자는 이 AI 도우미의 강력한 기능과 기술적 세부 사항은 물론 인간과 컴퓨터 상호 작용의 미래에 대한 중요성에 대한 심층적인 이해를 제공합니다.
Apple은 최근 차세대 인공 지능 시스템인 Ferret-UI2를 출시했습니다. 이 크로스 플랫폼 AI 어시스턴트는 테스트 점수 89.73으로 GPT-4V의 77.73점을 크게 앞지르며 UI 요소 인식에 획기적인 발전을 이루며 뛰어난 성능을 보여주었습니다.
이 시스템의 가장 큰 특징은 사용자의 의도를 지능적으로 이해하는 능력입니다. 좌표 클릭을 기반으로 한 기존 작업 방식과 달리 Ferret-UI2는 사용자의 자연어 지침을 기반으로 해당 작업을 자동으로 찾아 수행할 수 있습니다. 연구팀은 GPT-4V의 시각적 기능을 사용하여 훈련 데이터를 생성하여 시스템이 인터페이스 요소 간의 공간적 관계를 더 잘 이해할 수 있도록 했습니다.

기술 아키텍처 측면에서 Ferret-UI2는 적응형 디자인을 채택하고 iPhone, iPad, Android 장치, 웹 브라우저 및 Apple TV와 같은 여러 플랫폼에서 UI 요소를 정확하게 식별할 수 있습니다. 또한 이 시스템에는 다양한 플랫폼에 따라 이미지 해상도와 처리 요구 사항을 자동으로 조정할 수 있는 지능형 알고리즘이 탑재되어 있어 정보 무결성을 유지하면서 로컬 컴퓨팅 효율성을 보장합니다.

실제 테스트 데이터에 따르면 시스템은 다양한 플랫폼에서 잘 작동합니다. iPhone은 원활하게 실행되고 iPad는 68%의 정확도를 가지며 Android 장치의 성공률은 71%에 이릅니다. 그러나 모바일 장치와 TV 또는 웹 인터페이스 간 전환과 같은 장치 간 시나리오에서는 주로 다양한 플랫폼 간의 인터페이스 레이아웃 차이로 인해 여전히 특정 문제가 있습니다.
UI 인터랙티브 AI 분야의 경쟁이 점점 치열해지고 있다는 점은 주목할 만하다. Anthropic은 최근 Claude3.5Sonnet의 UI 상호 작용 기능을 업그레이드했으며 Microsoft는 화면 콘텐츠를 구조화된 데이터로 변환하는 데 전념하는 OmniParser 도구를 오픈 소스로 제공했습니다.
동시에 Apple이 출시한 CAMPHOR 프레임워크는 전문 AI 에이전트와 마스터 추론 에이전트의 협력을 통해 시스템의 복잡한 작업 처리 능력을 더욱 향상시킵니다. 이는 미래에는 Siri와 같은 음성 비서가 사용자가 인터페이스를 수동으로 조작하지 않고도 레스토랑 예약과 같은 복잡한 작업을 보다 지능적으로 완료할 수 있다는 것을 의미합니다.
이 기술적 혁신은 장치 간 작업의 지능 수준을 향상시킬 뿐만 아니라 차세대 인간-컴퓨터 상호 작용을 위한 명확한 개발 청사진을 제시합니다. 기술이 계속 발전함에 따라 더욱 스마트하고 자연스러운 인간-컴퓨터 상호 작용 경험이 가능해졌습니다.
Ferret-UI2의 등장은 AI 보조기 개발의 새로운 단계를 의미합니다. 강력한 플랫폼 간 호환성과 지능형 상호 작용 기능은 사용자에게 더욱 편리하고 지능적인 작동 경험을 제공하며, 인간과 컴퓨터의 상호 작용이 더욱 자연스러워질 것임을 나타냅니다. 미래. 우리는 Ferret-UI2가 미래에 크로스 디바이스 시나리오의 과제를 극복하고 더욱 완벽한 사용자 경험을 제공할 수 있기를 기대합니다.