Эффективное отслеживание трехмерного движения от однополосного видео всегда было сложной проблемой в области компьютерного зрения, особенно при работе с долгосрочными видеопонресованными видео и с точностью достоверности пикселя. Традиционные методы ограничены вычислительными ресурсами и сложности алгоритма, что затрудняет получение подробного понимания полной сцены и интенсивного трехмерного отслеживания движения. Эта статья представит новый подход под названием Delta, который направлен на эффективное решение этой головоломки и достижение значительных результатов.
В области обработки видео было сложной проблемой для эффективного отслеживания трехмерного движения из видео с одной линзой, особенно когда требуется точное отслеживание длинных последовательностей на уровне пикселей. Традиционные методы сталкиваются с несколькими проблемами, часто отслеживающими небольшое количество ключевых моментов и не могут получить подробное понимание полного сценария.

Более того, вычислительные требования предыдущего искусства высоки, что затрудняет поддержание эффективности при обработке длинных видео. В то же время, на долгосрочное отслеживание также будет влиять такие проблемы, как движение камеры и окклюзия объекта, что приведет к ошибкам отслеживания или ошибок.
В настоящее время методы оценки движения видео последовательности имеют свои преимущества и недостатки. Технология оптического потока обеспечивает интенсивное отслеживание пикселей, но демонстрирует недостаточную прочность в сложных сценариях, особенно при работе с длинными последовательностями.
Поток сценария является расширением оптического потока, оценивая плотное трехмерное движение через данные RGB-D или точечные облака, но все еще трудно эффективно применять в длинных последовательностях. Хотя метод отслеживания точек может отражать траектории движения и объединять пространственное и временное внимание для достижения более плавного отслеживания, все еще трудно достичь интенсивного мониторинга из -за высоких затрат на вычислитель. Кроме того, метод отслеживания на основе реконструкции использует поля деформации для оценки движения, но не очень практичен в приложениях в реальном времени.

Недавно исследовательская группа из Массачусетского университета Амхерст, лаборатория искусственного интеллекта MIT-IBM и Snap Inc. предложила Delta (плотное эффективное отслеживание Long-Range3D для любого видео), тип отслеживания, разработанный для эффективного отслеживания. Пиксель в трехмерном пространстве. Delta начинает с отслеживания низкого разрешения, принимает механизм пространственно-временного внимания и применяет эпохиплер, основанный на внимании, для высокой точности разрешения. Его ключевые инновации включают Upsamplers для четких границ движения, эффективной архитектуры пространственного внимания и репрезентациях с логарифмическими характеристиками повышенной производительности отслеживания.
Delta достигла расширенных результатов на наборах данных CVO и Kubric3D, улучшив более чем на 10% на таких показателях, как средний Jaccard (AJ) и 3D средние разницы в положениях (APD3D), а также в контрольных показателях отслеживания 3D-точек, таких как TAP-VID3D и LSFodyssey. выдающийся. В отличие от существующих методов, Delta реализует интенсивное трехмерное отслеживание в масштабе, работая более чем в 8 раз быстрее, чем предыдущие методы, сохраняя при этом ведущую в отрасли точность.
Эксперименты показывают, что Delta превосходно выполняется в трехмерных задачах отслеживания, с скоростью и точностью, превышающими предыдущие методы. Delta обучается на наборе данных Kubric и содержит более 5600 видео, с функцией потерь, объединяющей 2D -координаты, потери глубины и видимости.
В эталоне Delta набрала самые высокие оценки в CVO и Kubric3D на 2D-отслеживании на большие расстояния и интенсивное 3D-отслеживание соответственно, а задачи выполнены гораздо быстрее, чем другие методы. Выбор дизайна Delta, такие как логарифмическое представление глубины, пространственное внимание и основания, основанные на внимании, значительно повышают их точность и эффективность в различных сценариях отслеживания.
Delta - это эффективный метод, который может отслеживать каждый пиксель в видео кадрах, достижение точности и более быстрого времени выполнения в плотном и 3D -отслеживании. Этот метод может столкнуться с проблемами в точках, которые заблокированы в течение длительного времени, с наилучшими результатами в коротких видеороликах с не более сотен кадров. Точность 3D отслеживания дельты зависит от точности и стабильности временной области используемой оценки глубины монокулярного. Ожидается, что прогресс в исследованиях в оценке глубины монокулярного обеспечения еще больше повысит производительность этого метода.
Вход в проект: https://snap-research.github.io/delta/
Ключевые моменты:
Delta-это совершенно новый подход, предназначенный для эффективного отслеживания каждого пикселя в одном линзе.
Delta достигает ведущих результатов на наборах данных CVO и Kubric3D в 8 раз быстрее, чем традиционные методы.
Этот метод может быть сложным в долгосрочных точках окклюзии, но он отлично работает на коротких видео.
Таким образом, метод Delta добился прорыва в трехмерном отслеживании движения видео однополосных видео, а его эффективность и высокая точность обеспечивают новые возможности для будущих приложений для обработки видео. Но этот подход по -прежнему должен быть дополнительно усовершенствован, чтобы справиться с более сложными и более длинными сценариями видео.