A tecnologia de posicionamento visual da AI sempre enfrentou gargalos de precisão. Pesquisadores da Illinois Tech, Cisco Research Institute e da Universidade da Flórida Central desenvolveram a estrutura do SEGVG para resolver esse problema e dar uma "visão de alta definição" da IA. O núcleo do SEGVG é o processamento de detalhes em nível de pixel, convertendo informações de caixa delimitadora em sinais de segmentação, assim como usar "óculos de alta definição" para a IA, permitindo que ele identifique claramente todos os pixels do alvo.
No campo da visão da IA, o posicionamento do alvo sempre foi um problema difícil. Os algoritmos tradicionais são como "miopia", que só podem circular o alvo com "quadros", mas não podem ver os detalhes dentro. É como quando você descreve uma pessoa para um amigo e apenas fala sobre sua altura aproximada e forma de corpo.
Para resolver esse problema, um grupo de figurões da Universidade de Tecnologia de Illinois, do Cisco Research Institute e da Universidade da Flórida Central desenvolveram uma nova estrutura de posicionamento visual chamada SEGVG, alegando deixar a AI se despedir da "miopia" a partir de agora!
O segredo central do SEGVG é: os detalhes do nível de pixels! O SEGVG converte as informações da caixa delimitadora em sinais de segmentação, o que equivale a colocar "óculos de alta definição" na IA, permitindo que a IA veja todos os pixels do alvo claramente!

Especificamente, o SEGVG adota um "codificador multitarefa de várias camadas". O nome parece complicado, mas você pode realmente entendê-lo como um "microscópio" de superprecisão contendo consultas para regressão e múltiplas consultas para segmentação. Simplificando, é usar diferentes "lentes" para executar tarefas delimitadoras de regressão e segmentação da caixa, observar repetidamente o alvo e extrair informações mais refinadas.
O mais incrível é que o SEGVG também introduziu um "módulo de alinhamento ternal", que é equivalente a equipar a IA com um "tradutor" para resolver especificamente o problema de "bloqueio de idiomas" entre os parâmetros de pré-treinamento do modelo e a incorporação de consultas. Através do mecanismo de atenção ternário, esse "tradutor" pode "traduzir" a consulta, o texto e os recursos visuais para o mesmo canal, permitindo que a IA compreenda melhor as informações de destino.

Qual é o efeito do SEGVG? alcançou resultados inovadores!
Além do posicionamento preciso, o SEGVG também pode gerar a pontuação de confiança prevista pelo modelo. Simplificando, a IA lhe dirá como é confiante em se julgar. Isso é muito importante em aplicações práticas.
O código aberto do SEGVG é um grande benefício para todo o campo da IA Vision!
Endereço em papel: https://arxiv.org/pdf/2407.03200
Link de código: https://github.com/weitaikang/segvg/tree/main
O surgimento do SEGVG marca um progresso significativo na tecnologia de posicionamento visual da IA.