لطالما كان التتبع الفعال للحركة ثلاثية الأبعاد من الفيديو المفرد مشكلة صعبة في مجال رؤية الكمبيوتر ، خاصة عند التعامل مع مقاطع الفيديو الطويلة المتسلسل ومتابعة دقة مستوى البكسل. تقتصر الطرق التقليدية على حساب الموارد وتعقيد الخوارزمية ، مما يجعل من الصعب تحقيق فهم مفصل للمشهد الكامل وتتبع الحركة ثلاثية الأبعاد المكثفة. ستقدم هذه المقالة نهجًا جديدًا يسمى Delta ، والذي يهدف إلى حل هذا اللغز بكفاءة وتحقيق نتائج مهمة.
في مجال معالجة الفيديو ، كان من الصعب تتبع حركة ثلاثية الأبعاد بكفاءة من فيديو عدسي واحد ، خاصةً عندما يلزم التتبع الدقيق على مستوى البكسل للتسلسلات الطويلة. تواجه الطرق التقليدية تحديات متعددة ، وغالبًا ما تتبع عدد صغير من النقاط الرئيسية ، ولا يمكنها تحقيق فهم مفصل للسيناريو الكامل.

علاوة على ذلك ، فإن متطلبات الحوسبة للفن السابق مرتفع ، مما يجعل من الصعب الحفاظ على الكفاءة عند معالجة مقاطع الفيديو الطويلة. في الوقت نفسه ، سيتأثر التتبع على المدى الطويل بمشاكل مثل حركة الكاميرا وانسداد الكائنات ، مما يؤدي إلى تتبع الأخطاء أو الأخطاء.
في الوقت الحالي ، فإن أساليب تقدير حركة تسلسل الفيديو لها مزايا وعيوبها. توفر تقنية التدفق البصري تتبعًا مكثفًا للبكسل ، ولكنها تظهر صلابة غير كافية في السيناريوهات المعقدة ، خاصة عند التعامل مع التسلسلات الطويلة.
يعد تدفق السيناريو امتدادًا للتدفق البصري ، حيث يقدر حركة ثلاثية الأبعاد كثيفة من خلال بيانات RGB-D أو غيوم النقاط ، ولكن لا يزال من الصعب تطبيقه بكفاءة في تسلسل طويل. على الرغم من أن طريقة تتبع النقاط يمكن أن تلتقط مسارات الحركة وتجمع بين الاهتمام المكاني والزماني لتحقيق تتبع أكثر سلاسة ، إلا أنه لا يزال من الصعب تحقيق مراقبة مكثفة بسبب التكلفة الحسابية العالية. علاوة على ذلك ، تستخدم طريقة التتبع القائمة على إعادة الإعمار حقول التشوه لتقدير الحركة ، ولكنها ليست عملية للغاية في التطبيقات في الوقت الفعلي.

في الآونة الأخيرة ، اقترح فريق أبحاث من جامعة ماساتشوستس أمهيرست ، ومختبر الذكاء الاصطناعي في MIT-IBM و SNAP Delta (تتبع كثيف طويل المدى على أي فيديو) ، وهو نوع من التتبع المصمم للتتبع الفعال. بكسل في الفضاء ثلاثي الأبعاد. تبدأ Delta بتتبع الدقة المنخفضة ، وتبني آلية انتباه مكاني الزماني وتطبق upsampler القائم على الانتباه لدقة عالية الدقة. تشمل ابتكاراتها الرئيسية upsamplers لحدود الحركة الواضحة ، والهندسة المعمارية الفعالة للانتباه المكاني ، وتمثيلات السجل المتعمقة لأداء التتبع المحسن.
حققت Delta نتائج متقدمة على مجموعات بيانات CVO و KUBRIC3D ، وتحسن بأكثر من 10 ٪ على مؤشرات مثل متوسط JACCARD (AJ) وفرق المتوسط ثلاثي الأبعاد (APD3D) ، وكذلك في معايير تتبع النقاط ثلاثية الأبعاد مثل TAP-VID3D و LSFODYSSEY. متميز. على عكس الأساليب الحالية ، تقوم دلتا بتنفيذ تتبع ثلاثي الأبعاد مكثف على النطاق ، حيث يعمل بأكثر من 8 مرات أسرع من الطرق السابقة ، مع الحفاظ على الدقة الرائدة في الصناعة.
تبين التجارب أن دلتا تؤدي بشكل ممتاز في مهام التتبع ثلاثية الأبعاد ، مع السرعة والدقة التي تتجاوز الطرق السابقة. تم تدريب دلتا على مجموعة بيانات Kubric ويحتوي على أكثر من 5600 مقطع فيديو ، مع وظيفة خسارة تجمع بين إحداثيات ثنائية الأبعاد وعمق وخسائر الرؤية.
في المعيار ، سجلت دلتا أعلى الدرجات في CVO و Kubric3D على التتبع ثنائي الأبعاد لمسافات طويلة وتتبع ثلاثي الأبعاد مكثف ، على التوالي ، والمهام أكملت أسرع بكثير من الأساليب الأخرى. اختيارات تصميم دلتا ، مثل تمثيل العمق اللوغاريتمي ، والاهتمام المكاني ، وعمليات الارتفاع القائمة على الاهتمام ، تعمل على تحسين دقتها وكفاءتها بشكل كبير في مجموعة متنوعة من سيناريوهات التتبع.
Delta هي طريقة فعالة يمكنها تتبع كل بكسل في إطارات الفيديو ، وتحقيق الدقة ووقت التشغيل بشكل أسرع في تتبع D و 3D الكثيف. قد تواجه هذه الطريقة تحديات في النقاط التي تم حظرها لفترة طويلة ، مع أفضل أداء في مقاطع الفيديو القصيرة التي لا يزيد عن مئات الإطارات. تعتمد دقة التتبع ثلاثية الأبعاد في دلتا على دقة واستقرار المجال الزمني لتقدير العمق الأحادي المستخدم. من المتوقع أن يعزز التقدم البحثي في تقدير العمق الأحادي أداء هذه الطريقة.
مدخل المشروع: https://snap-research.github.io/delta/
النقاط الرئيسية:
Delta هي نهج جديد تمامًا مصمم لتتبع كل بكسل بكفاءة في مقطع فيديو واحد.
تحقق دلتا النتائج الرائدة على مجموعات بيانات CVO و KUBRIC3D بسرعة 8 مرات من الطرق التقليدية.
قد تكون هذه الطريقة صعبة في نقاط انسداد طويلة الأجل ، ولكنها تؤدي بشكل ممتاز على مقاطع الفيديو القصيرة.
باختصار ، أحرزت طريقة دلتا تقدمًا كبيرًا في تتبع الحركة ثلاثية الأبعاد لمقاطع الفيديو الواحدة العدسة ، وتوفر كفاءتها ودقتها عالية إمكانيات جديدة لتطبيقات معالجة الفيديو المستقبلية. لكن هذا النهج لا يزال يتعين تحسينه للتعامل مع سيناريوهات الفيديو الأكثر تعقيدًا وأطول.