Apple выпустила новое поколение кросс-платформенного помощника по искусственному интеллекту Ferret-UI2, который добился прорывного прогресса в распознавании элементов пользовательского интерфейса с результатом теста 89,73, что намного превышает показатель GPT-4V 77,73. Ferret-UI2 может понимать инструкции на естественном языке, автоматически выполнять соответствующие операции и поддерживает несколько платформ, таких как iPhone, iPad, устройства Android, веб-браузеры и Apple TV. Редактор Downcodes даст вам глубокое понимание мощных функций и технических деталей этого ИИ-помощника, а также его значения для будущего взаимодействия человека и компьютера.
Недавно Apple выпустила систему искусственного интеллекта нового поколения Ferret-UI2. Этот кроссплатформенный помощник с искусственным интеллектом совершил крупный прорыв в распознавании элементов пользовательского интерфейса, получив оценку 89,73 балла в тесте, что значительно превышает 77,73 балла GPT-4V, продемонстрировав отличную производительность.
Самая большая особенность этой системы — ее способность разумно понимать намерения пользователя. В отличие от традиционного метода работы, основанного на щелчках по координатам, Ferret-UI2 может автоматически находить и выполнять соответствующие операции на основе инструкций пользователя на естественном языке. Исследовательская группа сгенерировала обучающие данные с помощью визуальных возможностей GPT-4V, что позволило системе лучше понять пространственные взаимоотношения между элементами интерфейса.

Что касается технической архитектуры, Ferret-UI2 имеет адаптивный дизайн и может точно идентифицировать элементы пользовательского интерфейса на нескольких платформах, таких как iPhone, iPad, устройства Android, веб-браузеры и Apple TV. Система также оснащена интеллектуальными алгоритмами, которые могут автоматически регулировать разрешение изображения и требования к обработке в соответствии с различными платформами, обеспечивая эффективность локальных вычислений при сохранении целостности информации.

Фактические данные испытаний показывают, что система хорошо работает на различных платформах: iPhone работает плавно, iPad имеет точность 68%, а вероятность успеха на устройствах Android достигает 71%. Однако в сценариях с использованием нескольких устройств, таких как переключение между мобильными устройствами и ТВ или веб-интерфейсами, по-прежнему существуют определенные проблемы, главным образом из-за различий в макетах интерфейсов между разными платформами.
Стоит отметить, что конкуренция в области интерактивного искусственного интеллекта пользовательского интерфейса становится все более жесткой. Anthropic недавно обновила возможности взаимодействия с пользовательским интерфейсом Claude3.5Sonnet, а Microsoft открыла исходный код инструмента OmniParser, предназначенного для преобразования содержимого экрана в структурированные данные.
Платформа CAMPHOR, запущенная Apple в то же время, еще больше расширяет возможности системы решать сложные задачи благодаря сотрудничеству профессиональных агентов искусственного интеллекта и агентов-мастеров рассуждения. Это означает, что в будущем голосовые помощники, такие как Siri, смогут более интеллектуально выполнять сложные задачи, такие как бронирование столиков в ресторанах, не требуя от пользователей ручного управления интерфейсом.
Этот технологический прорыв не только повышает уровень интеллекта в операциях между устройствами, но и создает четкий план развития следующего поколения взаимодействия человека и компьютера. Поскольку технологии продолжают развиваться, в пределах досягаемости становятся более разумные и естественные способы взаимодействия человека с компьютером.
Появление Ferret-UI2 знаменует собой новый этап в развитии ИИ-помощников. Его сильная кросс-платформенная совместимость и возможности интеллектуального взаимодействия обеспечивают пользователям более удобный и интеллектуальный опыт работы, а также указывают на то, что взаимодействие человека с компьютером станет более естественным. будущее. Мы с нетерпением ожидаем, что Ferret-UI2 сможет преодолеть проблемы сценариев использования нескольких устройств в будущем и обеспечить более совершенный пользовательский опыт.