Apple は、新世代のクロスプラットフォーム AI アシスタント Ferret-UI2 をリリースしました。これは、UI 要素認識において画期的な進歩を遂げ、テスト スコアは 89.73 で、GPT-4V のスコア 77.73 をはるかに上回りました。 Ferret-UI2 は自然言語の命令を理解し、対応する操作を自動的に実行し、iPhone、iPad、Android デバイス、Web ブラウザ、Apple TV などの複数のプラットフォームをサポートします。 Downcodes のエディターは、この AI アシスタントの強力な機能と技術的な詳細、そして人間とコンピューターの相互作用の将来におけるその重要性を深く理解することができます。
Apple は最近、新世代の人工知能システムである Ferret-UI2 をリリースしました。このクロスプラットフォーム AI アシスタントは、UI 要素認識において大きな進歩を遂げ、テスト スコアは 89.73 で、GPT-4V の 77.73 ポイントを大きく上回り、優れたパフォーマンスを示しました。
このシステムの最大の特徴は、ユーザーの意図をインテリジェントに理解できることです。 Ferret-UI2 は、座標クリックに基づく従来の操作方法とは異なり、ユーザーの自然言語指示に基づいて、対応する操作を自動的に見つけて実行します。研究チームは GPT-4V の視覚機能を利用してトレーニング データを生成し、システムがインターフェイス要素間の空間関係をより深く理解できるようにしました。

技術的なアーキテクチャの面では、Ferret-UI2 はアダプティブ デザインを採用しており、iPhone、iPad、Android デバイス、Web ブラウザ、Apple TV などの複数のプラットフォーム上の UI 要素を正確に識別できます。このシステムには、さまざまなプラットフォームに応じて画像解像度と処理要件を自動的に調整できるインテリジェントなアルゴリズムも装備されており、情報の整合性を維持しながらローカルのコンピューティング効率を確保します。

実際のテストデータは、このシステムがさまざまなプラットフォームで良好に動作することを示しています。iPhone はスムーズに動作し、iPad の精度率は 68%、Android デバイスの成功率は 71% に達しています。ただし、モバイル デバイスと TV または Web インターフェイス間の切り替えなどのクロスデバイス シナリオでは、主に異なるプラットフォーム間のインターフェイス レイアウトの違いにより、依然として特定の課題が存在します。
UIインタラクティブAIの分野における競争はますます激化していることは注目に値します。 Anthropic は最近、Claude3.5Sonnet の UI インタラクション機能をアップグレードし、Microsoft は画面コンテンツを構造化データに変換することに特化した OmniParser ツールをオープンソース化しました。
Apple が同時に立ち上げた CAMPHOR フレームワークは、プロの AI エージェントとマスター推論エージェントの協力を通じて、複雑なタスクを処理するシステムの能力をさらに強化します。これは、将来的には、Siri などの音声アシスタントが、ユーザーがインターフェースを手動で操作することなく、レストランの予約などの複雑なタスクをよりインテリジェントに完了できるようになるということを意味します。
この技術的進歩は、クロスデバイス操作におけるインテリジェンスのレベルを向上させるだけでなく、次世代の人間とコンピューターの相互作用のための明確な開発青写真を描きます。テクノロジーが進化し続けるにつれて、よりスマートでより自然な人間とコンピューターの対話エクスペリエンスが実現できるようになります。
Ferret-UI2 の登場は、AI アシスタントの開発における新たな段階を示し、その強力なクロスプラットフォーム互換性とインテリジェントなインタラクション機能により、ユーザーはより便利でインテリジェントな操作体験を得ることができ、また、人間とコンピューターのインタラクションがより自然になることを示しています。スムーズな未来。 Ferret-UI2 が将来、クロスデバイス シナリオの課題を克服し、より完璧なユーザー エクスペリエンスをもたらすことができることを期待しています。