Pelacakan gerakan 3D yang efisien dari video lensa tunggal selalu menjadi masalah yang sulit di bidang visi komputer, terutama ketika berhadapan dengan video jangka panjang dan mengejar akurasi tingkat piksel. Metode tradisional dibatasi oleh sumber daya komputasi dan kompleksitas algoritma, membuatnya sulit untuk mencapai pemahaman terperinci tentang adegan lengkap dan pelacakan gerak tiga dimensi yang intensif. Artikel ini akan memperkenalkan pendekatan baru yang disebut Delta, yang bertujuan untuk menyelesaikan teka -teki ini secara efisien dan mencapai hasil yang signifikan.
Di bidang pemrosesan video, telah menjadi masalah yang sulit untuk secara efisien melacak gerakan tiga dimensi dari video lensa tunggal, terutama ketika diperlukan pelacakan urutan panjang yang tepat dari urutan panjang. Metode tradisional menghadapi banyak tantangan, seringkali hanya melacak sejumlah kecil poin -poin penting, dan tidak dapat mencapai pemahaman terperinci tentang skenario lengkap.

Selain itu, tuntutan komputasi dari seni sebelumnya tinggi, sehingga sulit untuk mempertahankan efisiensi saat memproses video yang panjang. Pada saat yang sama, pelacakan jangka panjang juga akan dipengaruhi oleh masalah seperti gerakan kamera dan oklusi objek, yang mengakibatkan kesalahan atau kesalahan pelacakan.
Saat ini, metode estimasi gerak urutan video memiliki kelebihan dan kekurangannya sendiri. Teknologi aliran optik memberikan pelacakan piksel intensif, tetapi menunjukkan ketangguhan yang tidak memadai dalam skenario yang kompleks, terutama ketika berhadapan dengan urutan yang panjang.
Aliran skenario adalah perpanjangan aliran optik, memperkirakan gerakan tiga dimensi padat melalui data RGB-D atau awan titik, tetapi masih sulit untuk diterapkan secara efisien dalam urutan panjang. Meskipun metode pelacakan titik dapat menangkap lintasan gerak dan menggabungkan perhatian spasial dan temporal untuk mencapai pelacakan yang lebih halus, masih sulit untuk mencapai pemantauan intensif karena biaya komputasi yang tinggi. Selain itu, metode pelacakan berbasis rekonstruksi menggunakan bidang deformasi untuk memperkirakan gerakan, tetapi tidak terlalu praktis dalam aplikasi real-time.

Baru-baru ini, tim peneliti dari University of Massachusetts Amherst, Laboratorium Intelijen Buatan MIT-IBM Watson dan Snap Inc. mengusulkan delta (pelacakan rentang panjang yang efisien untuk setiap video), jenis pelacakan yang dirancang untuk pelacakan yang efisien. piksel dalam ruang tiga dimensi. Delta dimulai dengan pelacakan resolusi rendah, mengadopsi mekanisme perhatian spatiotemporal dan menerapkan UPSAMPLER berbasis perhatian untuk akurasi resolusi tinggi. Inovasi utamanya termasuk upsampler untuk batas gerak yang jelas, arsitektur perhatian spasial yang efisien, dan representasi log-kedalaman dari kinerja pelacakan yang ditingkatkan.
Delta telah mencapai hasil lanjutan pada dataset CVO dan KUBRIC3D, meningkat lebih dari 10% pada indikator seperti rata-rata JACCARD (AJ) dan perbedaan posisi rata-rata 3D (APD3D), dan juga dalam tolok ukur pelacakan titik 3D seperti TAP-VID3D dan LSFODYSSEY. luar biasa. Tidak seperti metode yang ada, Delta mengimplementasikan pelacakan tiga dimensi intensif pada skala, berjalan lebih dari 8 kali lebih cepat dari metode sebelumnya, sambil mempertahankan akurasi terdepan industri.
Eksperimen menunjukkan bahwa Delta berkinerja sangat baik dalam tugas pelacakan tiga dimensi, dengan kecepatan dan akurasi melebihi metode sebelumnya. Delta dilatih pada dataset KUBRIC dan berisi lebih dari 5600 video, dengan fungsi kerugian menggabungkan koordinat 2D, kehilangan kedalaman dan visibilitas.
Dalam benchmark, Delta mencetak skor tertinggi dalam CVO dan KUBRIC3D pada pelacakan 2D jarak jauh dan pelacakan 3D intensif, masing-masing, dan tugas diselesaikan lebih cepat daripada metode lainnya. Pilihan desain Delta, seperti representasi kedalaman logaritmik, perhatian spasial, dan upampler berbasis perhatian, secara signifikan meningkatkan akurasi dan efisiensi mereka dalam berbagai skenario pelacakan.
Delta adalah metode yang efisien yang dapat melacak setiap piksel dalam bingkai video, mencapai akurasi dan runtime yang lebih cepat dalam pelacakan D dan 3D yang padat. Metode ini mungkin menghadapi tantangan pada titik -titik yang diblokir untuk waktu yang lama, dengan kinerja terbaik dalam video pendek dengan tidak lebih dari ratusan bingkai. Akurasi pelacakan 3D Delta tergantung pada akurasi dan stabilitas domain waktu dari estimasi kedalaman monokular yang digunakan. Kemajuan penelitian dalam estimasi kedalaman monokular diharapkan untuk lebih meningkatkan kinerja metode ini.
Pintu masuk proyek: https://snap-research.github.io/delta/
Poin -Poin Kunci:
Delta adalah pendekatan yang sama sekali baru yang dirancang untuk melacak setiap piksel secara efisien dalam video lensa tunggal.
Delta mencapai hasil utama pada dataset CVO dan KUBRIC3D pada 8 kali lebih cepat dari metode tradisional.
Metode ini mungkin menantang pada titik oklusi jangka panjang, tetapi berkinerja sangat baik pada video pendek.
Singkatnya, metode Delta telah membuat kemajuan terobosan dalam pelacakan gerak tiga dimensi video lensa tunggal, dan efisiensi serta akurasi tinggi memberikan kemungkinan baru untuk aplikasi pemrosesan video di masa depan. Tetapi pendekatan ini masih perlu disempurnakan lebih lanjut untuk menangani skenario video yang lebih kompleks dan lebih lama.