O rastreamento eficiente do movimento 3D do vídeo de lente única sempre foi um problema difícil no campo da visão computacional, especialmente ao lidar com vídeos de longa sequência e buscar precisão no nível de pixels. Os métodos tradicionais são limitados pela computação de recursos e complexidade do algoritmo, dificultando a obtenção de um entendimento detalhado da cena completa e do rastreamento de movimento tridimensional intensivo. Este artigo introduzirá uma nova abordagem chamada Delta, que visa resolver esse quebra -cabeça com eficiência e obter resultados significativos.
No campo do processamento de vídeo, foi um problema difícil rastrear o movimento tridimensional com eficiência do vídeo de lente única, especialmente quando é necessário rastreamento preciso de longas seqüências no nível de pixels. Os métodos tradicionais enfrentam vários desafios, geralmente rastreiam apenas um pequeno número de pontos -chave e não conseguem obter um entendimento detalhado do cenário completo.

Além disso, as demandas de computação da arte anterior são altas, dificultando a manutenção da eficiência ao processar vídeos longos. Ao mesmo tempo, o rastreamento de longo prazo também será afetado por problemas como movimento da câmera e oclusão de objetos, resultando em erros ou erros de rastreamento.
Atualmente, os métodos de estimativa de movimento de sequência de vídeo têm suas próprias vantagens e desvantagens. A tecnologia de fluxo óptico fornece rastreamento intensivo de pixels, mas exibe resistência insuficiente em cenários complexos, especialmente ao lidar com sequências longas.
O fluxo de cenário é uma extensão do fluxo óptico, estimando um movimento tridimensional denso através de dados RGB-D ou nuvens de pontos, mas ainda é difícil aplicar com eficiência em sequências longas. Embora o método de rastreamento de pontos possa capturar trajetórias de movimento e combinar atenção espacial e temporal para obter rastreamento mais suave, ainda é difícil obter monitoramento intensivo devido ao alto custo computacional. Além disso, o método de rastreamento baseado em reconstrução usa campos de deformação para estimar o movimento, mas não é muito prático em aplicações em tempo real.

Recentemente, uma equipe de pesquisa da Universidade de Massachusetts Amherst, o MIT-IBM Watson Artificial Intelligence Laboratory e o Snap Inc. propostos Delta (rastreamento denso de longo alcance de longo prazo para qualquer vídeo), um tipo de rastreamento projetado para rastreamento eficiente. pixel no espaço tridimensional. A Delta começa com rastreamento de baixa resolução, adota um mecanismo de atenção espaço-temporal e aplica um upsampler baseado em atenção para uma precisão de alta resolução. Suas principais inovações incluem upsamplers para limites claros de movimento, arquitetura de atenção espacial eficiente e representações de profundidade de log do desempenho de rastreamento aprimorado.
A Delta alcançou resultados avançados nos conjuntos de dados CVO e Kubric3D, melhorando em mais de 10% em indicadores como Jaccard médio (AJ) e diferença de posição média em 3D (APD3D) e também em benchmarks de rastreamento de pontos 3D, como Tap-vid3D e LSfodySsey. fora do comum. Diferentemente dos métodos existentes, a Delta implementa o rastreamento tridimensional intensivo em escala, executando mais de 8 vezes mais rápido que os métodos anteriores, mantendo a precisão líder do setor.
As experiências mostram que o Delta tem um desempenho excelentemente em tarefas de rastreamento tridimensional, com velocidade e precisão excedendo os métodos anteriores. A Delta é treinada no conjunto de dados Kubric e contém mais de 5600 vídeos, com uma função de perda combinando coordenadas 2D, perdas de profundidade e visibilidade.
No benchmark, a Delta obteve as pontuações mais altas no CVO e Kubric3D em rastreamento 2D de longa distância e rastreamento 3D intensivo, respectivamente, e as tarefas concluíram muito mais rápido que outros métodos. As opções de design da Delta, como representação de profundidade logarítmica, atenção espacial e amostradores baseados em atenção, melhoram significativamente sua precisão e eficiência em vários cenários de rastreamento.
A Delta é um método eficiente que pode rastrear cada pixel em quadros de vídeo, atingir a precisão e o tempo de execução mais rápido em rastreamento densos D e 3D. Esse método pode enfrentar desafios em pontos bloqueados por um longo tempo, com o melhor desempenho em vídeos curtos, com não mais que centenas de quadros. A precisão do rastreamento 3D do Delta depende da precisão e da estabilidade do domínio do tempo da estimativa de profundidade monocular usada. Espera -se que o progresso da pesquisa na estimativa de profundidade monocular aumente ainda mais o desempenho desse método.
Entrada do projeto: https://snap-research.github.io/delta/
Pontos -chave:
A Delta é uma abordagem completamente nova, projetada para rastrear com eficiência todos os pixels em um vídeo de lente única.
A Delta alcança os principais resultados nos conjuntos de dados CVO e Kubric3D em 8 vezes mais rápidos que os métodos tradicionais.
Esse método pode ser desafiador em pontos de oclusão de longo prazo, mas tem um desempenho excelentemente em vídeos curtos.
Em resumo, o método Delta fez progresso inovador no rastreamento de movimento tridimensional de vídeos de lente única, e sua eficiência e alta precisão fornecem novas possibilidades para futuros aplicativos de processamento de vídeo. Mas essa abordagem ainda precisa ser refinada para lidar com cenários de vídeo mais complexos e mais longos.