Die visuelle Zielpositionierungstechnologie hat immer Genauigkeitsgpässe ausgesetzt. Forscher des Illinois Tech, des Cisco Research Institute und der University of Central Florida haben das SEGVG-Rahmen entwickelt, um dieses Problem zu lösen und KI "hochauflösende Vision" zu geben. Der Kern von SEGVG ist eine Detailverarbeitung auf Pixelebene, die Begrenzungsboxinformationen in Segmentierungssignale umwandelt, genau wie das Tragen von "Hochauflagen-Brillen" für KI, sodass es jedes Pixel des Ziels eindeutig identifizieren kann.
Im Bereich der KI -Sicht war die Zielpositionierung immer ein schwieriges Problem. Herkömmliche Algorithmen sind wie "Myopie", die das Ziel nur grob mit "Frames" umkreisen können, die Details jedoch nicht sehen können. Es ist wie wenn Sie eine Person einem Freund beschreiben und nur über ihre ungefähre Größe und Körperform sprechen, ist es seltsam, wenn Ihr Freund eine Person findet!
Um dieses Problem zu lösen, haben eine Gruppe von Bigwigs von Illinois University of Technology, Cisco Research Institute und der University of Central Florida ein neues visuelles Positionierungsrahmen namens SEGVG entwickelt und behauptet, AI von nun an "Myopia" zu verabschieden!
Das Kerngeheimnis von SEGVG ist: "Pixel-Level" -Tetails! SEGVG wandelt Begrenzungskasteninformationen in Segmentierungssignale um, was gleichbedeutend mit "Hochdefinitionsbrillen" auf KI entspricht, sodass KI jedes Pixel des Ziels klar sehen kann!

Insbesondere nimmt SEGVG einen "Multi-Layer-Multitasking-Encoder-Decoder" an. Der Name klingt kompliziert, aber Sie können ihn tatsächlich als Superprecision-"-Microskop" verstehen, das Abfragen zur Regression und mehrere Abfragen zur Segmentierung enthält. Einfach ausgedrückt, es geht darum, verschiedene "Linsen" zu verwenden, um die Regressions- und Segmentierungsaufgaben der Begrenzung von Begrenzungsboxen auszuführen, das Ziel wiederholt zu beobachten und raffinierte Informationen zu extrahieren.
Noch erstaunlicher ist, dass SEGVG auch ein "ternales Ausrichtungsmodul" einführte, das AI mit einem "Übersetzer" entspricht, um das Problem der "Sprachblockade" zwischen Modellvoraussetzungen und Abfragebedingungen spezifisch zu lösen. Durch den ternären Aufmerksamkeitsmechanismus kann dieser "Übersetzer" die Abfrage, den Text und die visuellen Merkmale in denselben Kanal "übersetzen", sodass KI die Zielinformationen besser verstehen kann.

Wie wirkte sich die großen Jungs zu fünf häufig verwendeten Datensätzen aus und stellten fest, dass die Leistung von SEGVG eine Reihe traditioneller Algorithmen übertrifft! hat Durchbruchsergebnisse erzielt!
Zusätzlich zur präzisen Positionierung kann SEGVG auch den vom Modell vorhergesagten Konfidence -Score ausgeben. Einfach ausgedrückt, KI wird Ihnen sagen, wie sicher es ist, sich selbst zu beurteilen. Dies ist in praktischen Anwendungen sehr wichtig.
Die Open Source of SEGVG ist ein großer Vorteil für das gesamte Gebiet der KI -Vision!
Papieradresse: https://arxiv.org/pdf/2407.03200
Code -Link: https://github.com/weitaikang/segvg/tree/main
Die Entstehung von SEGVG ist ein erheblicher Fortschritt in der visuellen Zielpositionierungstechnologie.