Descarga XMem - Descargar el código fuente XMem

XMem

Pitón

v1.0

Descargar

XMEM: segmentación de objetos de video a largo plazo con un modelo de memoria Atkinson-Shiffrin

Nuevo proyecto VOS: volver a poner el objeto en la segmentación de objetos de video: https://github.com/hkchengrex/cutie

Nuevo proyecto: segmentación de videos de world abiertos con XMEM: https://github.com/hkchengrex/tracking-yalthing-with-deva

Ho Kei Cheng, Alexander Schwing

Universidad de Illinois Urbana-Champaign

[ARXIV] [PDF] [Página del proyecto]

Manifestación

Manejo de oclusión a largo plazo:

Cans_crf20.mp4

Video muy largo; Inserción de capa enmascarada:

breakdance_soft_crf20.mp4

Fuente: https://www.youtube.com/watch?v=q5xr0f4a0iu

Caso fuera de dominio:

Fujiwara_chika.mp4

Fuente: Kaguya -sama: El amor es la guerra - The Battle of Geniuses 'Love and Brains - Ep.3; A-1 Fotografías

[Casos de falla]

Características

Manejar videos muy largos con uso limitado de memoria de GPU.
Bastante rápido. Espere ~ 20 fps incluso con videos largos (dependiente del hardware).
Ven con una GUI (modificada de mivos).

Tabla de contenido

Introducción
Resultados
Demostración de GUI interactiva
Entrenamiento/inferencia
Citación

Introducción

Enmarcamos la segmentación de objetos de video (VOS), en primer lugar, como un problema de memoria . Los trabajos anteriores usan principalmente un solo tipo de memoria de características. Esto puede ser en forma de pesos de red (es decir, aprendizaje en línea), segmentación de último cuadro (p. Ej., Masktrack), representación oculta espacial (p. Ej., Métodos basados en Conv-RNN), características espaciales de atención (p. Ej.

Los métodos con un tramo de memoria corto no son robustos a los cambios, mientras que aquellos con un banco de memoria grande están sujetos a un aumento catastrófico en el cálculo y el uso de la memoria GPU. Los intentos de VO de atención a largo plazo como la compresa de AFB-IRR las características tan pronto como se generan, lo que lleva a una pérdida de resolución de características.

Nuestro método está inspirado en el modelo de memoria humana Atkinson-Shiffrin, que tiene una memoria sensorial , una memoria de trabajo y una memoria a largo plazo . Estas tiendas de memoria tienen diferentes escalas temporales y se complementan entre sí en nuestro mecanismo de lectura de memoria. Se desempeña bien en conjuntos de datos de video a corto y largo plazo, manejando videos con más de 10,000 cuadros con facilidad.

Entrenamiento/inferencia

Primero, instale los paquetes y conjuntos de datos de Python requeridos siguiendo a Getting_started.md.

Para el entrenamiento, ver Training.md.

Para inferencia, ver inferencia.md.

Proyectos/extensiones relacionadas:

Rastrear cualquier cosa
Deva
Autotrackanything

Citación

¡Cite nuestro documento si encuentra útil este repositorio!

 @inproceedings { cheng2022xmem ,
  title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
  author = { Cheng, Ho Kei and Alexander G. Schwing } ,
  booktitle = { ECCV } ,
  year = { 2022 }
}

Proyectos relacionados en los que se desarrolla este documento:

 @inproceedings { cheng2021stcn ,
  title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { NeurIPS } ,
  year = { 2021 }
}

@inproceedings { cheng2021mivos ,
  title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2021 }
}

Usamos F-BRS en la demostración interactiva: https://github.com/saic-vul/fbrs_interactive_segmentation

Y si desea citar los conjuntos de datos:

bibtex

 @inproceedings { shi2015hierarchicalECSSD ,
  title = { Hierarchical image saliency detection on extended CSSD } ,
  author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
  booktitle = { TPAMI } ,
  year = { 2015 } ,
}

@inproceedings { wang2017DUTS ,
  title = { Learning to Detect Salient Objects with Image-level Supervision } ,
  author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang 
  and Wang, Dong, and Yin, Baocai and Ruan, Xiang } , 
  booktitle = { CVPR } ,
  year = { 2017 }
}

@inproceedings { FSS1000 ,
  title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
  author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { zeng2019towardsHRSOD ,
  title = { Towards High-Resolution Salient Object Detection } ,
  author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
  booktitle = { ICCV } ,
  year = { 2019 }
}

@inproceedings { cheng2020cascadepsp ,
  title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
  author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { xu2018youtubeVOS ,
  title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
  author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
  booktitle = { ECCV } ,
  year = { 2018 }
}

@inproceedings { perazzi2016benchmark ,
  title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
  author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
  booktitle = { CVPR } ,
  year = { 2016 }
}

@inproceedings { denninger2019blenderproc ,
  title = { BlenderProc } ,
  author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
  booktitle = { arXiv:1911.01911 } ,
  year = { 2019 }
}

@inproceedings { shapenet2015 ,
  title       = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
  author      = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
  booktitle   = { arXiv:1512.03012 } ,
  year        = { 2015 }
}