В этой статье представлена крупномасштабная модель 4D-гауссовской реконструкции под названием L4GM, которая способна эффективно генерировать высококачественные анимированные объекты из видео с одним просмотром. Он обучается на большом наборе данных, содержащем многопросмотровые видео, и инновационно разработан для достижения быстрой скорости обработки всего в одну секунду при односторонней передаче. Преимущество L4GM заключается в том, что он может реконструировать длинные видео и видео с высокой частотой кадров, а также поддерживает 4D-интерполяцию для значительного увеличения частоты кадров видео. Кроме того, модель также демонстрирует хорошую способность к обобщению и может достигать удовлетворительных результатов в реальных видеороликах.
Недавно исследовательская группа предложила крупномасштабную модель 4D-гауссовской реконструкции под названием L4GM, которая может генерировать анимированные объекты из видеовходов с одним изображением и достигать впечатляющих результатов.
Ключом к этой модели является инновационный набор данных и упрощенный дизайн, который позволяет выполнить одностороннюю передачу всего за одну секунду, обеспечивая при этом высокое качество выходных анимированных объектов.
Видео в 4D-композитинг
L4GM может генерировать 4D-объекты из видео за несколько секунд. В следующем примере видео вы можете увидеть целевой объект в исходном видео и соответствующую сгенерированную модель 4D-гауссовской реконструкции.
Реконструируйте длинные, гибкие видеоролики с высоким FPS.
И восстановите 10-секундное видео со скоростью 30 кадров в секунду. В качестве примера в следующем видео:
4D-интерполяция
Команда также обучила 4D-модель интерполяции, чтобы увеличить частоту кадров в 3 раза. В качестве примера в следующем видео:
Слева: до интерполяции. Справа: после интерполяции
Создайте набор перспективных видеоданных
Исследовательская группа создала набор данных, содержащий многопросмотровые видеоролики, содержащие тщательно обработанные и отрендеренные анимированные объекты из Objaverse. Этот набор данных отображает 44 000 разнообразных объектов, охватывающих 110 000 анимаций с 48 точек обзора, в результате чего получается в общей сложности 120 миллионов видеороликов с общим количеством кадров 300 миллионов. На основе этого набора данных L4GM построен непосредственно на уже предварительно обученной трехмерной крупномасштабной модели реконструкции LGM, которая выводит трехмерные гауссовы эллипсоиды из входных данных многопроекционного изображения.
L4GM достигает временной сглаживания, генерируя трехмерное Гауссово представление каждого кадра в видеокадрах, снятых с низкой частотой кадров, а затем повышая дискретизацию представления до более высоких кадров в секунду.
Чтобы помочь модели изучить временную согласованность, исследовательская группа добавила временной слой самообслуживания к базовому LGM и использовала потери при рендеринге с несколькими представлениями на каждом временном шаге для обучения модели. Путем обучения модели интерполяции это представление подвергается повышающей дискретизации до более высокой частоты кадров, в результате чего получается промежуточное трехмерное гауссово представление.
Исследовательская группа продемонстрировала хорошую способность к обобщению L4GM на видеороликах в дикой природе после обучения на синтетических данных, создав высококачественные анимированные 3D-объекты. Модель принимает в качестве входных данных однопросмотровое видео и многопросмотровые изображения с одним временным шагом и выводит набор четырехмерных гауссовских распределений вероятностей.
техническая основа

Модель принимает в качестве входных данных однопроекционное видео и одновременное многопроекционное изображение и выводит набор 4D гауссианов. Он использует архитектуру U-Net, использует перекрестное внимание для достижения согласованности представлений и использует время-пространственное внимание для достижения временной согласованности.

L4GM позволяет авторегрессионную реконструкцию, используя многоракурсную визуализацию последней гауссианы в качестве входных данных для следующей реконструкции. Между двумя последовательными реконструкциями имеется один кадр перекрытия. Кроме того, исследовательская группа также обучила интерполяционную 4D-модель. Модель интерполяции получает интерполированное многовидовое видео, полученное на основе результатов реконструкции, и выводит интерполированное гауссово значение.
Применимые сценарии L4GM включают:
Генерация видеоконтента: L4GM может генерировать 4D-модели анимированных объектов из видеовхода с одним изображением, что имеет широкое применение в производстве видеоспецэффектов, разработке игр и других областях. Например, его можно использовать для создания анимации со спецэффектами, создания виртуальных сцен и т. д.
Реконструкция и восстановление видео: L4GM может реконструировать долгосрочные видео с высокой частотой кадров и может использоваться для ремонта и восстановления видео для улучшения качества и четкости видео. Это может быть полезно при восстановлении фильмов, сжатии и обработке видео.
Интерполяция видео: с помощью обученной модели 4D-интерполяции L4GM может увеличить частоту кадров видео и сделать его более плавным. Это имеет потенциальное применение при редактировании видео, создании эффектов замедленного/ускоренного движения и т. д.
Генерация 3D-активов: L4GM может генерировать высококачественные анимированные 3D-ресурсы, что очень полезно для создания 3D-моделей в приложениях виртуальной реальности (VR), дополненной реальности (AR) и разработке игр.
Вход в продукт: https://top.aibase.com/tool/l4gm
В целом, модель L4GM добилась значительного прогресса в области 4D-гауссовской реконструкции, а ее высокая эффективность, высокое качество продукции и широкие перспективы применения делают ее результатом исследования, имеющим большое значение. Появление этой модели будет во многом способствовать прогрессу в таких областях, как обработка видео и создание 3D-активов.