昔々、人工知能の視覚認識能力は、重い「フィルター」を着用しているかのように、確立された「スクリプト」に従ってのみ識別できるかのように、プリセットカテゴリと固定パターンに依然として制限されていました。しかし、テクノロジーの急速な発展により、この状況は完全に壊れています。この新しいAIモデルであるYoloeは、シャックルを壊す「ビジュアルアーティスト」のようなものです。従来のオブジェクト検出の「厳格な教義」に完全に別れを告げ、「すべてがリアルタイムで認識できる」という新しい時代を開きます。 AIは、事前に定義されたカテゴリタグに頼る必要がなくなりましたが、テキストの説明、ぼやけ、さらにはループが少ないだけでも、人間のように目の前のすべてをすぐに理解できると想像してください。この破壊的なブレークスルーは、ヨーローによってもたらされた衝撃的な変化です。
ヨーローの誕生は、AIに真の「自由の目」のペアを置いたようです。過去のYoloシリーズのような事前定義されたオブジェクトを認識しなくなりましたが、「オールラウンドプレーヤー」になります。テキストコマンド、視覚的なプロンプト、または「ブラインドテストモード」であろうと、Yoloeは写真内のすべてのオブジェクトをリアルタイムで簡単にキャプチャして理解できます。この「非異なる認識」の超大国は、AIの視覚的認識能力を人間の柔軟性と知性に向けて革新的な一歩を踏み出しました。

それでは、ヨーローはどのようにして「すべてを見る」この能力を開発しましたか?答えは、Reprta、Savpe、LRPCの3つの革新的なモジュールにあります。 ReprtaはAIの「テキストデコーダー」のようなもので、テキスト命令を正確に理解し、テキストの説明を「ナビゲーションマップ」に変換して視覚的に認識できます。 SavpeはAIの「画像アナライザー」であり、それらから重要な手がかりを抽出し、ぼやけた写真に直面した場合でもターゲットをすばやくロックできます。 LRPCはYoloeの「ユニークなスキル」です。プロンプトがなくても、画像を個別にスキャンして「取得」して、大規模な語彙ライブラリからすべての命名オブジェクトを特定し、「教師なし」の状態を本当に実現できます。
技術的なアーキテクチャの観点から、ヨーローはヨーロファミリーの古典的なデザインを継承しましたが、コアコンポーネントで大胆な革新を行いました。それはまだ強力なバックボーンネットワークとパンネックネットワークを備えており、画像を「解剖学」し、マルチレベルの視覚機能を抽出することを担当しています。リターンヘッドとスプリットヘッドは「左と左の保護」のようなもので、1つはオブジェクトの境界を正確にフレーミングする責任があり、もう1つはオブジェクトの輪郭を細かく描写する責任があります。最も重要なブレークスルーは、ヨーローのヘッドを埋め込むオブジェクトにあります。それは伝統的なヨロ「分類器」の制約から離れ、代わりに、より柔軟な「セマンティックスペース」を構築し、オープンな語彙の自由な認識の基礎を築きます。テキストのプロンプトであろうと視覚的なガイダンスであろうと、Yoloeは、これらのマルチモーダル情報を、AIの方向を指すように、ReprtaおよびSavpeモジュールを介して統一された「プロンプト信号」に変換できます。
ヨーローの真の戦闘力を検証するために、研究チームは一連のハードコアテストを実施しました。権威あるLVISデータセットでは、Yoloeは驚くべきゼロサンプル検出機能を実証し、「ヘビー級ボクシング」を演奏する「軽量プレイヤー」のように、さまざまなモデルサイズで効率とパフォーマンスの完全なバランスを達成します。実験データは、ヨーローがより速いトレーニング速度を高めるだけでなく、認識の精度が高いことを証明し、複数の重要な指標を上回っています。さらに驚くべきことは、Yoloeが2つの主要なタスクを統合していることです。オブジェクト検出とインスタンス分割は、「1つの専門とマルチエネルギー」と呼ばれ、強力なマルチタスク処理機能を示しています。最も厳しい「プロンプトなし」シナリオでさえ、ヨーローは依然としてうまく機能しており、その自律的な認識能力は印象的です。
視覚分析では、Yoloeの「18の武道」をより直感的に実証します。テキストプロンプトの下で、指定されたカテゴリのオブジェクトを正確に識別できます。テキストの説明に直面しても、「マップに従う」こともできます。視覚的な手がかりのガイダンスの下で、それは「心を理解する」ことができます。また、サイレントモードでは、「独立して探索する」こともできます。 Yoloeは、さまざまな複雑なシナリオで使いやすく、その強力な一般化能力と幅広いアプリケーションの見通しを完全に実証しています。
ヨーローの出現は、ヨーロファミリーへの主要なアップグレードであるだけでなく、オブジェクト検出の分野全体における破壊的な革新でもあります。従来のモデルの「カテゴリーの障壁」を破り、AIの視覚能力が「オープンワールド」に真に移動できるようになります。将来、ヨーローは、自律運転、インテリジェントなセキュリティ、ロボットナビゲーションなどの分野でその強みを示し、AIビジョンアプリケーションの無限の可能性を開き、マシンが真に「世界を理解する」知恵を持たせることが期待されています。