هو كي تشنغ ، ألكساندر شوينغ
جامعة إلينوي أوربانا شامبين
[Arxiv] [PDF] [صفحة المشروع]
التعامل مع انسداد طويل الأجل:
فيديو طويل جدا إدخال طبقة ملثمة:
المصدر: https://www.youtube.com/watch؟v=q5xr0f4a0iu
حالة خارج المجال:
المصدر: Kaguya -sama: الحب هو الحرب - معركة حب العبقرية والأدمغة - ep.3 ؛ صور A-1
نقوم بتأطير تجزئة كائنات الفيديو (VOS) ، أولاً وقبل كل شيء ، كمشكلة للذاكرة . تستخدم الأعمال السابقة في الغالب نوعًا واحدًا من ذاكرة الميزات. يمكن أن يكون هذا في شكل أوزان الشبكة (أي التعلم عبر الإنترنت) ، تجزئة الإطار الأخير (على سبيل المثال ، Masktrack) ، التمثيل الخفي المكاني (على سبيل المثال ، الأساليب المستندة إلى RENC-RNN) ، الميزات المكانية الموازنة (EG ، STM ، STCN ، AOT) ، أو نوع من الميزات المدمجة طويلة الأجل (EG ، AFB-URR).
الأساليب التي تحتوي على فترة قصيرة من الذاكرة ليست قوية للتغييرات ، في حين أن أولئك الذين لديهم بنك ذاكرة كبير يخضعون لزيادة كارثية في الحساب واستخدام ذاكرة GPU. تتميز محاولات VOS LIND LIND LIND LIND LIND AFB-ORR بفارغ الصبر بمجرد إنشائها ، مما يؤدي إلى فقدان دقة الميزات.
طريقتنا مستوحاة من نموذج الذاكرة البشرية Atkinson-Shiffrin ، والذي يحتوي على ذاكرة حسية وذاكرة عاملة وذاكرة طويلة الأجل . تحتوي مخازن الذاكرة هذه على موازين مؤقتة مختلفة وتتكمل بعضها البعض في آلية قراءة الذاكرة الخاصة بنا. إنه يعمل بشكل جيد في كل من مجموعات بيانات الفيديو قصيرة الأجل وطويلة الأجل ، ويتعامل مع مقاطع الفيديو مع أكثر من 10000 إطار بسهولة.
أولاً ، قم بتثبيت حزم Python ومجموعات البيانات المطلوبة بعد get_started.md.
لتدريب ، انظر التدريب.
لاستنتاج ، انظر الاستدلال.
يرجى الاستشهاد بالورقة إذا وجدت هذا الريبو مفيدًا!
@inproceedings { cheng2022xmem ,
title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
author = { Cheng, Ho Kei and Alexander G. Schwing } ,
booktitle = { ECCV } ,
year = { 2022 }
}المشاريع ذات الصلة التي تم تطوير هذه الورقة على:
@inproceedings { cheng2021stcn ,
title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { NeurIPS } ,
year = { 2021 }
}
@inproceedings { cheng2021mivos ,
title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2021 }
}نستخدم F-BRS في العرض التوضيحي التفاعلي: https://github.com/saic-vul/fbrs_interactive_segressation
وإذا كنت تريد الاستشهاد بمجموعات البيانات:
bibtex
@inproceedings { shi2015hierarchicalECSSD ,
title = { Hierarchical image saliency detection on extended CSSD } ,
author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
booktitle = { TPAMI } ,
year = { 2015 } ,
}
@inproceedings { wang2017DUTS ,
title = { Learning to Detect Salient Objects with Image-level Supervision } ,
author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang
and Wang, Dong, and Yin, Baocai and Ruan, Xiang } ,
booktitle = { CVPR } ,
year = { 2017 }
}
@inproceedings { FSS1000 ,
title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { zeng2019towardsHRSOD ,
title = { Towards High-Resolution Salient Object Detection } ,
author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
booktitle = { ICCV } ,
year = { 2019 }
}
@inproceedings { cheng2020cascadepsp ,
title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { xu2018youtubeVOS ,
title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
booktitle = { ECCV } ,
year = { 2018 }
}
@inproceedings { perazzi2016benchmark ,
title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
booktitle = { CVPR } ,
year = { 2016 }
}
@inproceedings { denninger2019blenderproc ,
title = { BlenderProc } ,
author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
booktitle = { arXiv:1911.01911 } ,
year = { 2019 }
}
@inproceedings { shapenet2015 ,
title = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
author = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
booktitle = { arXiv:1512.03012 } ,
year = { 2015 }
}الاتصال: [email protected]