การติดตามการเคลื่อนไหว 3 มิติจากวิดีโอเลนส์เดี่ยวเป็นปัญหาที่ยากในด้านการมองเห็นคอมพิวเตอร์โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับวิดีโอลำดับที่ยาวนานและติดตามความแม่นยำระดับพิกเซล วิธีการดั้งเดิมถูก จำกัด ด้วยทรัพยากรการคำนวณและความซับซ้อนของอัลกอริทึมทำให้ยากที่จะบรรลุความเข้าใจอย่างละเอียดเกี่ยวกับฉากที่สมบูรณ์และการติดตามการเคลื่อนไหวสามมิติที่เข้มข้น บทความนี้จะแนะนำวิธีการใหม่ที่เรียกว่า Delta ซึ่งมีวัตถุประสงค์เพื่อแก้ปริศนานี้ได้อย่างมีประสิทธิภาพและบรรลุผลลัพธ์ที่สำคัญ
ในสาขาการประมวลผลวิดีโอมันเป็นปัญหาที่ยากในการติดตามการเคลื่อนไหวสามมิติจากวิดีโอเลนส์เดี่ยวอย่างมีประสิทธิภาพโดยเฉพาะอย่างยิ่งเมื่อต้องมีการติดตามลำดับที่แม่นยำของพิกเซลที่แม่นยำ วิธีการดั้งเดิมเผชิญกับความท้าทายหลายประการมักจะติดตามประเด็นสำคัญจำนวนเล็กน้อยและไม่สามารถเข้าใจอย่างละเอียดเกี่ยวกับสถานการณ์ที่สมบูรณ์

ยิ่งไปกว่านั้นความต้องการด้านคอมพิวเตอร์ของศิลปะก่อนหน้านั้นสูงทำให้ยากต่อการรักษาประสิทธิภาพเมื่อประมวลผลวิดีโอยาว ๆ ในเวลาเดียวกันการติดตามระยะยาวจะได้รับผลกระทบจากปัญหาเช่นการเคลื่อนไหวของกล้องและการอุดตันของวัตถุส่งผลให้เกิดข้อผิดพลาดหรือข้อผิดพลาด
ปัจจุบันวิธีการประมาณค่าการเคลื่อนไหวของลำดับวิดีโอมีข้อได้เปรียบและข้อเสียของตนเอง เทคโนโลยีการไหลแบบออพติคอลให้การติดตามพิกเซลอย่างเข้มข้น แต่มีความเหนียวไม่เพียงพอในสถานการณ์ที่ซับซ้อนโดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับลำดับที่ยาวนาน
การไหลของสถานการณ์เป็นส่วนขยายของการไหลของแสงโดยประมาณการเคลื่อนไหวสามมิติที่หนาแน่นผ่านข้อมูล RGB-D หรือคลาวด์จุด แต่ก็ยังยากที่จะใช้อย่างมีประสิทธิภาพในลำดับที่ยาวนาน แม้ว่าวิธีการติดตามจุดสามารถจับวิถีการเคลื่อนที่และรวมความสนใจเชิงพื้นที่และเชิงเวลาเพื่อให้ได้การติดตามที่ราบรื่นขึ้น แต่ก็ยังยากที่จะบรรลุการตรวจสอบอย่างเข้มข้นเนื่องจากค่าใช้จ่ายในการคำนวณสูง นอกจากนี้วิธีการติดตามตามการสร้างใหม่ใช้ฟิลด์การเสียรูปเพื่อประเมินการเคลื่อนไหว แต่ไม่ได้ใช้งานได้จริงในการใช้งานแบบเรียลไทม์

เมื่อเร็ว ๆ นี้ทีมวิจัยจาก University of Massachusetts Amherst, MIT-IBM Watson Artificial Intelligence Laboratory และ Snap Inc. เสนอ Delta (การติดตามระยะยาวที่มีประสิทธิภาพ 3 มิติสำหรับวิดีโอใด ๆ ) ประเภทของการติดตามที่ออกแบบมาสำหรับวิธีการติดตามที่มีประสิทธิภาพ พิกเซลในพื้นที่สามมิติ เดลต้าเริ่มต้นด้วยการติดตามความละเอียดต่ำใช้กลไกความสนใจแบบ spatiotemporal และใช้ upsampler ตามความสนใจเพื่อความแม่นยำความละเอียดสูง นวัตกรรมที่สำคัญของมันรวมถึง upsamplers สำหรับขอบเขตการเคลื่อนไหวที่ชัดเจนสถาปัตยกรรมความสนใจเชิงพื้นที่ที่มีประสิทธิภาพและการเป็นตัวแทนเชิงลึกของประสิทธิภาพการติดตามที่เพิ่มขึ้น
เดลต้าได้รับผลลัพธ์ขั้นสูงเกี่ยวกับชุดข้อมูล CVO และ Kubric3D ซึ่งปรับปรุงโดยมากกว่า 10% สำหรับตัวชี้วัดเช่น Jaccard เฉลี่ย (AJ) และความแตกต่างของตำแหน่งเฉลี่ย 3D (APD3D) และในเกณฑ์มาตรฐานการติดตามจุด 3 มิติเช่น TAP-VID3D และ LSFodys โดดเด่น. ซึ่งแตกต่างจากวิธีการที่มีอยู่เดลต้าใช้การติดตามสามมิติอย่างเข้มข้นในระดับที่ทำงานได้เร็วกว่าวิธีก่อนหน้ามากกว่า 8 เท่าในขณะที่รักษาความแม่นยำชั้นนำของอุตสาหกรรม
การทดลองแสดงให้เห็นว่าเดลต้าทำงานได้อย่างยอดเยี่ยมในงานติดตามสามมิติด้วยความเร็วและความแม่นยำสูงกว่าวิธีการก่อนหน้านี้ เดลต้าได้รับการฝึกฝนในชุดข้อมูล Kubric และมีวิดีโอมากกว่า 5600 รายการโดยมีฟังก์ชั่นการสูญเสียรวมพิกัด 2D ความลึกและการสูญเสียการมองเห็น
ในเกณฑ์มาตรฐานเดลต้าทำคะแนนสูงสุดใน CVO และ Kubric3D ในการติดตาม 2D ทางไกลและการติดตาม 3D แบบเข้มข้นตามลำดับและงานเสร็จเร็วกว่าวิธีอื่นมาก ตัวเลือกการออกแบบของเดลต้าเช่นการเป็นตัวแทนเชิงลึกลอการิทึมความสนใจเชิงพื้นที่และ upsamplers ตามความสนใจปรับปรุงความแม่นยำและประสิทธิภาพของพวกเขาอย่างมีนัยสำคัญในสถานการณ์การติดตามที่หลากหลาย
เดลต้าเป็นวิธีที่มีประสิทธิภาพที่สามารถติดตามแต่ละพิกเซลในเฟรมวิดีโอบรรลุความแม่นยำและรันไทม์ที่เร็วขึ้นในการติดตาม D และ 3D วิธีนี้อาจเผชิญกับความท้าทายที่จุดที่ถูกบล็อกเป็นเวลานานด้วยประสิทธิภาพที่ดีที่สุดในวิดีโอสั้น ๆ ที่มีไม่เกินหลายร้อยเฟรม ความแม่นยำในการติดตาม 3 มิติของเดลต้าขึ้นอยู่กับความแม่นยำและความเสถียรของโดเมนเวลาของการประมาณความลึกตาข้างเดียวที่ใช้ ความคืบหน้าการวิจัยในการประมาณค่าความลึกตาข้างเดียวคาดว่าจะเพิ่มประสิทธิภาพของวิธีนี้ต่อไป
ทางเข้าโครงการ: https://snap-research.github.io/delta/
ประเด็นสำคัญ:
เดลต้าเป็นวิธีการใหม่ที่ออกแบบมาเพื่อติดตามทุกพิกเซลอย่างมีประสิทธิภาพในวิดีโอเลนส์เดียว
Delta บรรลุผลลัพธ์ที่นำไปสู่ชุดข้อมูล CVO และ Kubric3D ที่เร็วกว่าวิธีการดั้งเดิม 8 เท่า
วิธีนี้อาจเป็นเรื่องที่ท้าทายในระยะการบดเคี้ยวระยะยาว แต่มันทำงานได้อย่างยอดเยี่ยมในวิดีโอสั้น ๆ
โดยสรุปแล้ววิธีเดลต้าได้ทำให้ความคืบหน้าของความก้าวหน้าในการติดตามการเคลื่อนไหวสามมิติของวิดีโอเลนส์เดี่ยวและประสิทธิภาพและความแม่นยำสูงให้ความเป็นไปได้ใหม่สำหรับแอพพลิเคชั่นการประมวลผลวิดีโอในอนาคต แต่วิธีการนี้ยังคงต้องได้รับการปรับปรุงเพิ่มเติมเพื่อจัดการกับสถานการณ์วิดีโอที่ซับซ้อนและยาวนานขึ้น