ดาวน์โหลด XMem - ดาวน์โหลดซอร์สโค้ด XMem

XMem

หลาม

v1.0

ดาวน์โหลด

XMEM: การแบ่งส่วนวัตถุวิดีโอระยะยาวกับโมเดลหน่วยความจำ Atkinson-Shiffrin

โครงการ VOS ใหม่: นำวัตถุกลับเข้าสู่การแบ่งส่วนวัตถุวิดีโอ: https://github.com/hkchengrex/cutie

โครงการใหม่: การแบ่งส่วนวิดีโอแบบเปิดกับ XMEM: https://github.com/hkchengrex/tracking-anything-with-deva

Ho Kei Cheng, Alexander Schwing

University of Illinois Urbana-Champaign

[arxiv] [PDF] [หน้าโครงการ]

การสาธิต

การจัดการการบดเคี้ยวระยะยาว:

cans_crf20.mp4

วิดีโอยาวมาก การแทรกเลเยอร์หน้ากาก:

breakdance_soft_crf20.mp4

ที่มา: https://www.youtube.com/watch?v=Q5XR0F4A0IU

กรณีนอกโดเมน:

Fujiwara_chika.mp4

ที่มา: Kaguya -Sama: Love Is War - The Battle of Geniuses 'Love and Brains - Ep.3; ภาพ A-1

[กรณีความล้มเหลว]

คุณสมบัติ

จัดการวิดีโอที่ยาวมากพร้อมการใช้หน่วยความจำ GPU ที่ จำกัด
ค่อนข้างเร็ว คาดหวัง ~ 20 fps แม้จะมีวิดีโอยาว (ขึ้นอยู่กับฮาร์ดแวร์)
มาพร้อมกับ GUI (ดัดแปลงจาก Mivos)

สารบัญ

การแนะนำ
ผลลัพธ์
การสาธิต GUI แบบโต้ตอบ
การฝึกอบรม/การอนุมาน
การอ้างอิง

การแนะนำ

เราวางกรอบการแบ่งส่วนวัตถุวิดีโอ (VOS) ก่อนและสำคัญที่สุดเป็นปัญหา หน่วยความจำ งานก่อนหน้านี้ส่วนใหญ่ใช้หน่วยความจำคุณลักษณะประเภทเดียว สิ่งนี้สามารถอยู่ในรูปแบบของน้ำหนักเครือข่าย (เช่นการเรียนรู้ออนไลน์) การแบ่งส่วนเฟรมสุดท้าย (เช่น masktrack), การเป็นตัวแทนที่ซ่อนอยู่เชิงพื้นที่ (เช่นวิธีการที่ใช้แบบ conv-RNN), คุณสมบัติเชิงพื้นที่ (เช่น STM, STCN, AOT)

วิธีการที่มีช่วงหน่วยความจำสั้น ๆ ไม่แข็งแกร่งต่อการเปลี่ยนแปลงในขณะที่ผู้ที่มีหน่วยความจำขนาดใหญ่อยู่ภายใต้การคำนวณที่เพิ่มขึ้นอย่างรุนแรงและการใช้หน่วยความจำ GPU ความพยายามใน VOS ที่ตั้งใจในระยะยาวเช่นคุณสมบัติการบีบอัด AFB-URR อย่างกระตือรือร้นทันทีที่พวกเขาถูกสร้างขึ้นนำไปสู่การสูญเสียความละเอียดของคุณลักษณะ

วิธีการของเราได้รับแรงบันดาลใจจากโมเดลหน่วยความจำมนุษย์ Atkinson-Shiffrin ซึ่งมี หน่วยความจำทางประสาทสัมผัส หน่วยความจำที่ทำงาน และ หน่วยความจำระยะยาว ที่เก็บหน่วยความจำเหล่านี้มีเครื่องชั่งชั่วคราวที่แตกต่างกันและเติมเต็มซึ่งกันและกันในกลไกการอ่านหน่วยความจำของเรา มันทำงานได้ดีทั้งในชุดข้อมูลวิดีโอระยะสั้นและระยะยาวจัดการวิดีโอที่มีเฟรมมากกว่า 10,000 เฟรมได้อย่างง่ายดาย

การฝึกอบรม/การอนุมาน

ขั้นแรกให้ติดตั้งแพ็คเกจ Python และชุดข้อมูลที่ต้องการหลังจากได้รับ _started.md

สำหรับการฝึกอบรมดูการฝึกอบรม

สำหรับการอนุมานดูที่การอนุมาน

โครงการ/ส่วนขยายที่เกี่ยวข้อง:

ติดตามอะไรก็ได้
เทเวีย
autotrackanything

การอ้างอิง

โปรดอ้างอิงกระดาษของเราหากคุณพบว่า repo นี้มีประโยชน์!

 @inproceedings { cheng2022xmem ,
  title = { {XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model } ,
  author = { Cheng, Ho Kei and Alexander G. Schwing } ,
  booktitle = { ECCV } ,
  year = { 2022 }
}

โครงการที่เกี่ยวข้องที่บทความนี้ได้รับการพัฒนาตาม:

 @inproceedings { cheng2021stcn ,
  title = { Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { NeurIPS } ,
  year = { 2021 }
}

@inproceedings { cheng2021mivos ,
  title = { Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion } ,
  author = { Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2021 }
}

เราใช้ F-BRS ในการสาธิตแบบโต้ตอบ: https://github.com/saic-vul/fbrs_interactive_segmentation

และถ้าคุณต้องการอ้างอิงชุดข้อมูล:

bibtex

 @inproceedings { shi2015hierarchicalECSSD ,
  title = { Hierarchical image saliency detection on extended CSSD } ,
  author = { Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya } ,
  booktitle = { TPAMI } ,
  year = { 2015 } ,
}

@inproceedings { wang2017DUTS ,
  title = { Learning to Detect Salient Objects with Image-level Supervision } ,
  author = { Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang 
  and Wang, Dong, and Yin, Baocai and Ruan, Xiang } , 
  booktitle = { CVPR } ,
  year = { 2017 }
}

@inproceedings { FSS1000 ,
  title = { FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation } ,
  author = { Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { zeng2019towardsHRSOD ,
  title = { Towards High-Resolution Salient Object Detection } ,
  author = { Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan } ,
  booktitle = { ICCV } ,
  year = { 2019 }
}

@inproceedings { cheng2020cascadepsp ,
  title = { {CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement } ,
  author = { Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung } ,
  booktitle = { CVPR } ,
  year = { 2020 }
}

@inproceedings { xu2018youtubeVOS ,
  title = { Youtube-vos: A large-scale video object segmentation benchmark } ,
  author = { Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas } ,
  booktitle = { ECCV } ,
  year = { 2018 }
}

@inproceedings { perazzi2016benchmark ,
  title = { A benchmark dataset and evaluation methodology for video object segmentation } ,
  author = { Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander } ,
  booktitle = { CVPR } ,
  year = { 2016 }
}

@inproceedings { denninger2019blenderproc ,
  title = { BlenderProc } ,
  author = { Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan } ,
  booktitle = { arXiv:1911.01911 } ,
  year = { 2019 }
}

@inproceedings { shapenet2015 ,
  title       = { {ShapeNet: An Information-Rich 3D Model Repository} } ,
  author      = { Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher } ,
  booktitle   = { arXiv:1512.03012 } ,
  year        = { 2015 }
}