AIの視覚ターゲットポジショニングテクノロジーは、常に正確なボトルネックに直面しています。イリノイ工科大学、シスコ研究所、中央フロリダ大学の研究者は、この問題を解決し、AIに「高解像度のビジョン」を与えるためにSEGVGフレームワークを開発しました。 SEGVGのコアはピクセルレベルの詳細処理であり、AIの「高解像度メガネ」を着用するように、境界ボックス情報をセグメンテーション信号に変換し、ターゲットのすべてのピクセルを明確に識別できるようにします。
AIビジョンの分野では、ターゲットポジショニングは常に困難な問題でした。従来のアルゴリズムは「近視」のようなものであり、ターゲットを「フレーム」でしか丸く囲むことができませんが、内部の詳細を見ることができません。それは、あなたが友人に人を説明し、あなたの友人が人を見つけたら奇妙なことです。
この問題を解決するために、イリノイ工科大学、シスコ研究所、中央フロリダ大学の大物のグループは、SEGVGと呼ばれる新しい視覚的ポジショニングフレームワークを開発し、AIがこれから「近視」に別れを告げると主張しています。
SEGVGの核となる秘密は、「ピクセルレベル」の詳細です。 SEGVGは、境界ボックス情報をセグメンテーション信号に変換します。これは、AIに「高解像度メガネ」を配置するのと同等で、AIがターゲットのすべてのピクセルをはっきりと見ることができます。

具体的には、SEGVGは「マルチレイヤーマルチタスクエンコーダーデコーダー」を採用しています。名前は複雑に聞こえますが、実際には、回帰のためのクエリとセグメンテーション用の複数のクエリを含むスーパーサイコン「顕微鏡」として実際に理解できます。 簡単に言えば、さまざまな「レンズ」を使用して、境界のあるボックス回帰とセグメンテーションタスクを実行し、ターゲットを繰り返し観察し、より洗練された情報を抽出することです。
さらに驚くべきことは、SEGVGが「Ternal Alignment Module」を導入したことです。これは、モデルのトレーニングパラメーター間の「言語詰まり」の問題とクエリの埋め込みの問題を具体的に解決するために、AIに「翻訳者」を装備するのと同等です。 三元注意メカニズムを通じて、この「翻訳者」はクエリ、テキスト、視覚機能を同じチャネルに翻訳することができ、AIがターゲット情報をよりよく理解できるようにします。

SEGVGの効果は何ですか?画期的な結果を達成しました!
正確なポジショニングに加えて、SEGVGはモデルによって予測される信頼性スコアを出力することもできます。 簡単に言えば、AIは自分自身を判断することがどれほど自信があるかを教えてくれます。これは、実際のアプリケーションでは非常に重要です。たとえば、AIを使用して医療画像を識別したい場合、AIの信頼が高くない場合は、誤診を避けるための手動レビューが必要です。
SEGVGのオープンソースは、AIビジョンの全体の大きな利点です。
紙の住所:https://arxiv.org/pdf/2407.03200
コードリンク:https://github.com/weitaikang/segvg/tree/main
SEGVGの出現は、AIの視覚ターゲットポジショニングテクノロジーの大幅な進歩を示しています。