Хо Кей Ченг, Александр Швинг
Университет Иллинойса Урбана-Шампейн
[arxiv] [pdf] [страница проекта]
Обработка долгосрочной окклюзии:
Очень долгое видео; Вставка слоя в маске:
Источник: https://www.youtube.com/watch?v=Q5XR0F4A0IU
Случайный случай:
Источник: Кагуя -сама: Любовь - это война - битва о любви и мозгах - EP.3; A-1 картинки
Мы создаем сегментацию видео объекта (VOS), в первую очередь, в качестве проблемы с памятью . Предыдущие работы в основном используют один тип памяти функций. Это может быть в форме весов сети (то есть онлайн-обучение), сегментации последней кадры (например, MaskTrack), пространственного скрытого представления (например, методов на основе Conv-RNN), пространственно-внимательных особенностях (например, STM, STCN, AOT) или некоторых видов долгосрочных компактных особенностей (например, AFB-Ourr).
Методы с коротким периодом памяти не являются устойчивыми к изменениям, в то время как методы с большим банком памяти подвергаются катастрофическому увеличению вычислений и использования памяти графических процессоров. Попытки долгосрочного внимания, такие как AFB-Ourr Compress, с нетерпением, как только они будут сгенерированы, что приводит к потере разрешения признаков.
Наш метод вдохновлен моделью человеческой памяти Аткинсон-Шиффрин, которая имеет сенсорную память , рабочую память и долговременную память . Эти хранилища памяти имеют разные временные масштабы и дополняют друг друга в нашем механизме чтения памяти. Он хорошо работает как в краткосрочных, так и в долгосрочных наборах данных, с легкостью обрабатывая видео с более чем 10 000 кадров.
Во -первых, установите необходимые пакеты и наборы данных Python после gate_started.md.
Для обучения см. Training.md.
Для вывода, см. Вывод.md.
Пожалуйста, процитируйте нашу газету, если вы найдете эту репо полезным!
@inproceedings { cheng2022xmem ,
title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
author = { Cheng, Ho Kei and Alexander G. Schwing } ,
booktitle = { ECCV } ,
year = { 2022 }
}Связанные проекты, на которые разработана эта статья:
@inproceedings { cheng2021stcn ,
title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { NeurIPS } ,
year = { 2021 }
}
@inproceedings { cheng2021mivos ,
title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2021 }
}Мы используем F-BR в интерактивной демонстрации: https://github.com/saic-vul/fbrs_interactive_segmentation
И если вы хотите привести наборы данных:
Бибтекс
@inproceedings { shi2015hierarchicalECSSD ,
title = { Hierarchical image saliency detection on extended CSSD } ,
author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
booktitle = { TPAMI } ,
year = { 2015 } ,
}
@inproceedings { wang2017DUTS ,
title = { Learning to Detect Salient Objects with Image-level Supervision } ,
author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang
and Wang, Dong, and Yin, Baocai and Ruan, Xiang } ,
booktitle = { CVPR } ,
year = { 2017 }
}
@inproceedings { FSS1000 ,
title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { zeng2019towardsHRSOD ,
title = { Towards High-Resolution Salient Object Detection } ,
author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
booktitle = { ICCV } ,
year = { 2019 }
}
@inproceedings { cheng2020cascadepsp ,
title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
booktitle = { CVPR } ,
year = { 2020 }
}
@inproceedings { xu2018youtubeVOS ,
title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
booktitle = { ECCV } ,
year = { 2018 }
}
@inproceedings { perazzi2016benchmark ,
title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
booktitle = { CVPR } ,
year = { 2016 }
}
@inproceedings { denninger2019blenderproc ,
title = { BlenderProc } ,
author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
booktitle = { arXiv:1911.01911 } ,
year = { 2019 }
}
@inproceedings { shapenet2015 ,
title = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
author = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
booktitle = { arXiv:1512.03012 } ,
year = { 2015 }
}Контакт: [email protected]