La tecnología de posicionamiento de objetivos visuales de IA siempre ha enfrentado cuellos de botella de precisión. Investigadores del Illinois Tech, el Instituto de Investigación de Cisco y la Universidad de Florida Central han desarrollado el marco SEGVG para resolver este problema y dar a la IA "visión de alta definición". El núcleo de SEGVG es el procesamiento de detalles a nivel de píxel, convirtiendo la información del cuadro delimitador en señales de segmentación, al igual que usar "gafas de alta definición" para IA, lo que le permite identificar claramente cada píxel del objetivo.
En el campo de la visión de IA, el posicionamiento objetivo siempre ha sido un problema difícil. Los algoritmos tradicionales son como "miopía", que solo pueden rodear aproximadamente el objetivo con "marcos", pero no pueden ver los detalles en el interior. Es como cuando describes a una persona a una amiga y solo hablas de su altura aproximada y su forma del cuerpo.
Para resolver este problema, un grupo de grandes pistas de la Universidad Tecnológica de Illinois, el Instituto de Investigación de Cisco y la Universidad de Florida Central han desarrollado un nuevo marco de posicionamiento visual llamado SEGVG, ¡afirmando dejar que AI se despidiera de "Myopia" a partir de ahora!
El secreto central de SEGVG es: ¡los detalles de "nivel de píxeles" solo usan la información del cuadro delimitador para entrenar ai, que es equivalente a solo darle una sombra vaga. SEGVG convierte la información del cuadro delimitador en señales de segmentación, lo cual es equivalente a poner "gafas de alta definición" en la IA, ¡lo que permite a IA ver cada píxel del objetivo claramente!

Específicamente, SEGVG adopta un "codificador multitarea múltiple de la capa". El nombre suena complicado, pero en realidad puede entenderlo como un "microscopio" de súper precisión que contiene consultas para la regresión y múltiples consultas para la segmentación. En pocas palabras, es usar diferentes "lentes" para realizar tareas de regresión y segmentación del cuadro limitado, observar repetidamente el objetivo y extraer información más refinada.
Lo que es aún más sorprendente es que SEGVG también introdujo un "módulo de alineación ternal", que es equivalente a equipar IA con un "traductor" para resolver específicamente el problema del "bloqueo del lenguaje" entre los parámetros de pre-entrenamiento del modelo y la incrustación de consultas. A través del mecanismo de atención ternaria, este "traductor" puede "traducir" la consulta, el texto y las características visuales al mismo canal, lo que permite a AI comprender mejor la información del objetivo.

¿Cuál es el efecto de SEGVG? ¡Ha logrado resultados innovadores!
Además del posicionamiento preciso, SEGVG también puede generar la puntuación de confianza predicha por el modelo. En pocas palabras, AI le dirá lo seguro que es juzgarse a sí mismo. Esto es muy importante en las aplicaciones prácticas.
¡El código abierto de SEGVG es un beneficio importante para todo el campo de la visión de IA!
Dirección en papel: https://arxiv.org/pdf/2407.03200
Enlace del código: https://github.com/weitaikang/segvg/tree/main
La aparición de SEGVG marca un progreso significativo en la tecnología de posicionamiento de objetivos visuales de IA.