Meta в партнерстве с Университетом науки и технологий имени короля Абдаллы (KAUST) в Саудовской Аравии запустила новую линейку моделей видеодиффузии под названием MarDini. Эта модель позволяет легко и эффективно создавать высококачественные видеоролики и реализовывать множество функций, таких как заполнение видеокадров, преобразование изображения в видео и расширение видео, что значительно упрощает процесс создания видео. Редактор Downcodes подробно расскажет о характеристиках и преимуществах модели MarDini, а также о ее прорывном вкладе в области обработки видео.
Недавно Meta заключила партнерское соглашение с Университетом науки и технологий имени короля Абдаллы (KAUST) Саудовской Аравии, чтобы запустить новую линейку моделей видеодиффузии — MarDini. Эта модель делает создание высококачественных видеороликов более простым и гибким, позволяя выполнять такие задачи, как заполнение недостающих кадров в видео, преобразование отдельных изображений в динамические сцены и даже расширение коротких клипов путем добавления естественных непрерывных кадров.

MarDini также имеет возможность расширять видео, изменяя существующее видео любой длины. Мы добавляем 12 новых кадров в каждую последовательность, создавая 2-секундное расширение из 5-кадрового эталонного видео.
MarDini реализует интерполяцию видео, генерируя промежуточные кадры, используя первый и последний кадры в качестве сигналов преобразования. Если эти граничные рамки одинаковы, MarDini может создавать бесшовные зацикленные видеоролики.
Как работает MarDini, очень интересно. Он использует передовую и эффективную технологию генерации видео и в основном состоит из двух частей: модели планирования и модели генерации. Во-первых, модель планирования использует метод маскированной авторегрессии (MAR) для интерпретации входных кадров с низким разрешением и генерации управляющих сигналов для кадров, которые необходимо создать. Затем облегченная генеративная модель использует процесс диффузии для создания детализированных кадров с высоким разрешением, гарантируя, что конечное видео будет плавным и визуально приятным.
В отличие от многих видеомоделей, для которых требуются сложные предварительно обученные модели изображений, MarDini утверждает, что обучается с нуля с использованием немаркированных видеоданных. Это связано с тем, что он использует прогрессивную стратегию обучения, которая позволяет модели лучше справляться с различными конфигурациями кадров за счет гибкой настройки метода маскировки кадров в процессе обучения.
Отличительной особенностью MarDini является ее гибкость и производительность. Он не только мощный, но и эффективный, подходит для более масштабных задач. Эта модель может выполнять такие задачи, как интерполяция видео, генерация изображения в видео и расширение видео, будь то сглаживание существующих видеоклипов или создание полных последовательностей с нуля.
С точки зрения производительности, MarDini устанавливает новые стандарты, создавая высококачественное видео за меньшее количество шагов, что делает его более эффективным с точки зрения затрат и времени по сравнению с более сложными альтернативами. В официальном исследовательском документе говорится: «Наше исследование показывает, что наша стратегия моделирования конкурентоспособна на различных тестах интерполяции и анимации, одновременно снижая вычислительные требования при сопоставимых масштабах параметров».
Вход в проект: https://mardini-vidgen.github.io/
В целом, модель MarDini открывает новые возможности в области создания видео благодаря своей эффективной производительности и гибким сценариям применения. Его инновационная технология и превосходная производительность позволяют ожидать, что в будущем он станет ведущей технологией в области генерации и обработки видео. С нетерпением ждем, когда MarDini преподнесет еще больше сюрпризов в будущем!