Ho Kei Cheng, Alexander Schwing
Universität von Illinois Urbana-Champaign
[ARXIV] [PDF] [Projektseite]
Umgang mit Langzeitverschluss:
Sehr langes Video; Maskierte Schichteinfügung:
Quelle: https://www.youtube.com/watch?v=q5xr0f4a0iu
Out-of-Domain-Fall:
Quelle: Kaguya -sama: Liebe ist Krieg - die Schlacht der Liebe und des Gehirns der Genies - Ep.3; A-1 Bilder
Wir rahmen die Videoobjektsegmentierung (VOS) in erster Linie als Gedächtnisproblem ein. Vorherige Arbeiten verwenden hauptsächlich einen einzelnen Typ von Feature -Speicher. Dies kann in Form von Netzwerkgewichten (dh Online-Lernen), Last-Frame-Segmentierung (z. B. MaskTrack), räumlicher Hidden Repräsentation (z. B. konv-rnn-basierte Methoden), räumlich-attentionalen Merkmale (z. B. STM, STCN, AOT) oder einer Art langfristige kompakte Merkmale (EG, AFB-, AFB-7) erfolgen.
Methoden mit kurzer Speicherspanne sind nicht robust für Änderungen, während diejenigen mit einer großen Speicherbank einer katastrophalen Zunahme der Berechnung und der GPU -Speicherverwendung unterliegen. Versuche zu langfristigen Aufmerksamkeits-VOS wie AFB-URM-Kompress-Funktionen sind eifrig, sobald sie erzeugt werden, was zu einem Verlust der Merkmalsauflösung führt.
Unsere Methode ist vom menschlichen Gedächtnismodell von Atkinson-Shiffrin inspiriert, das ein sensorisches Gedächtnis , ein Arbeitsgedächtnis und ein Langzeitgedächtnis hat. Diese Speicherspeicher haben unterschiedliche temporäre Skalen und ergänzen sich in unserem Gedächtnislesemechanismus. Es ist sowohl in kurzfristigen als auch in langfristigen Video-Datensätzen gut ab, und verarbeitet Videos mit mehr als 10.000 Frames mühelos.
Installieren Sie zunächst die erforderlichen Python -Pakete und -Datensätze nach dem gingen_started.md.
Für das Training siehe Training.md.
Für Inferenz siehe Inferenz.md.
Bitte zitieren Sie unser Papier, wenn Sie dieses Repo nützlich finden!
@inproceedings { cheng2022xmem ,
title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
author = { Cheng, Ho Kei and Alexander G. Schwing } ,
booktitle = { ECCV } ,
year = { 2022 }
}Verwandte Projekte, an denen dieses Papier entwickelt wird:
@inproceedings { cheng2021stcn ,
title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { NeurIPS } ,
year = { 2021 }
}
@inproceedings { cheng2021mivos ,
title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2021 }
}Wir verwenden F-BRS in der interaktiven Demo: https://github.com/saic-vul/fbrs_interactive_segmentation
Und wenn Sie die Datensätze zitieren möchten:
Bibtex
@inproceedings { shi2015hierarchicalECSSD ,
title = { Hierarchical image saliency detection on extended CSSD } ,
author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
booktitle = { TPAMI } ,
year = { 2015 } ,
}
@inproceedings { wang2017DUTS ,
title = { Learning to Detect Salient Objects with Image-level Supervision } ,
author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang
and Wang, Dong, and Yin, Baocai and Ruan, Xiang } ,
booktitle = { CVPR } ,
year = { 2017 }
}
@inproceedings { FSS1000 ,
title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { zeng2019towardsHRSOD ,
title = { Towards High-Resolution Salient Object Detection } ,
author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
booktitle = { ICCV } ,
year = { 2019 }
}
@inproceedings { cheng2020cascadepsp ,
title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { xu2018youtubeVOS ,
title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
booktitle = { ECCV } ,
year = { 2018 }
}
@inproceedings { perazzi2016benchmark ,
title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
booktitle = { CVPR } ,
year = { 2016 }
}
@inproceedings { denninger2019blenderproc ,
title = { BlenderProc } ,
author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
booktitle = { arXiv:1911.01911 } ,
year = { 2019 }
}
@inproceedings { shapenet2015 ,
title = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
author = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
booktitle = { arXiv:1512.03012 } ,
year = { 2015 }
}Kontakt: [email protected]