Download do XMem - Download do código -fonte XMem

XMem

Pitão

v1.0

Baixar

XMEM: segmentação de objetos de vídeo de longo prazo com um modelo de memória Atkinson-Shiffrin

Novo Projeto VOS: Colocando o objeto de volta à segmentação de objetos de vídeo: https://github.com/hkchenrex/cutie

Novo projeto: segmentação de vídeo em mundo aberto com xmem: https://github.com/hkchenrex/tracking-anything-with-deva

Ho Kei Cheng, Alexander Schwing

Universidade de Illinois Urbana-Champaign

[Arxiv] [PDF] [página do projeto]

Demonstração

Lidar com oclusão de longo prazo:

CANS_CRF20.MP4

Vídeo muito longo; Inserção de camada mascarada:

breakdance_soft_crf20.mp4

Fonte: https://www.youtube.com/watch?v=q5xr0f4a0iu

Caso fora do domínio:

Fujiwara_chika.mp4

Fonte: Kaguya -sama: O amor é a guerra - a batalha de amor e cérebros dos gênios - Ep.3; A-1 fotos

[Casos de falha]

Características

Lidar com vídeos muito longos com uso limitado de memória da GPU.
Muito rápido. Espere ~ 20 fps mesmo com vídeos longos (dependente de hardware).
Venha com uma GUI (modificada de Mivos).

Índice

Introdução
Resultados
Demonstração interativa da GUI
Treinamento/inferência
Citação

Introdução

Estrutamos a segmentação de objetos de vídeo (VOS), em primeiro lugar, como um problema de memória . Trabalhos anteriores usam principalmente um único tipo de memória de recurso. Isso pode ser na forma de pesos da rede (ou seja, aprendizado on-line), segmentação do último quadro (por exemplo, MaskTrack), representação oculta espacial (por exemplo, métodos baseados em Conv-RNN), recursos espaciais-atendentes (por exemplo, STM, STCN, AOT), ou algum tipo de recursos compactos de longo prazo (AFB, AFB-STC.

Os métodos com uma curta extensão de memória não são robustos às mudanças, enquanto aqueles com um grande banco de memória estão sujeitos a um aumento catastrófico no cálculo e no uso da memória da GPU. Tentativas de vos atencionais de longo prazo, como a AFB-UR, a Compress apresenta ansiosamente assim que são gerados, levando a uma perda de resolução de recursos.

Nosso método é inspirado no modelo de memória humana Atkinson-Shiffrin, que possui uma memória sensorial , uma memória de trabalho e uma memória de longo prazo . Esses armazenamentos de memória têm diferentes escalas temporárias e se complementam em nosso mecanismo de leitura de memória. Ele tem um bom desempenho nos conjuntos de dados de vídeo de curto e longo prazo, lidando com vídeos com mais de 10.000 quadros com facilidade.

Treinamento/inferência

Primeiro, instale os pacotes e conjuntos de dados Python necessários após o getter_started.md.

Para treinamento, consulte Training.md.

Para inferência, consulte Inferência.md.

Projetos/extensões relacionadas:

Rastreie qualquer coisa
Deva
AutoTrackanything

Citação

Por favor, cite nosso artigo se você achar esse repositório útil!

 @inproceedings { cheng2022xmem ,
  title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
  author = { Cheng, Ho Kei and Alexander G. Schwing } ,
  booktitle = { ECCV } ,
  year = { 2022 }
}

Projetos relacionados aos quais este artigo é desenvolvido:

 @inproceedings { cheng2021stcn ,
  title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { NeurIPS } ,
  year = { 2021 }
}

@inproceedings { cheng2021mivos ,
  title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2021 }
}

Usamos F-Brs na demonstração interativa: https://github.com/saic-vul/fbrs_interactive_segmentation

E se você quiser citar os conjuntos de dados:

bibtex

 @inproceedings { shi2015hierarchicalECSSD ,
  title = { Hierarchical image saliency detection on extended CSSD } ,
  author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
  booktitle = { TPAMI } ,
  year = { 2015 } ,
}

@inproceedings { wang2017DUTS ,
  title = { Learning to Detect Salient Objects with Image-level Supervision } ,
  author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang 
  and Wang, Dong, and Yin, Baocai and Ruan, Xiang } , 
  booktitle = { CVPR } ,
  year = { 2017 }
}

@inproceedings { FSS1000 ,
  title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
  author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { zeng2019towardsHRSOD ,
  title = { Towards High-Resolution Salient Object Detection } ,
  author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
  booktitle = { ICCV } ,
  year = { 2019 }
}

@inproceedings { cheng2020cascadepsp ,
  title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
  author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { xu2018youtubeVOS ,
  title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
  author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
  booktitle = { ECCV } ,
  year = { 2018 }
}

@inproceedings { perazzi2016benchmark ,
  title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
  author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
  booktitle = { CVPR } ,
  year = { 2016 }
}

@inproceedings { denninger2019blenderproc ,
  title = { BlenderProc } ,
  author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
  booktitle = { arXiv:1911.01911 } ,
  year = { 2019 }
}

@inproceedings { shapenet2015 ,
  title       = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
  author      = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
  booktitle   = { arXiv:1512.03012 } ,
  year        = { 2015 }
}