Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜
В современном цифровом эпохе короткие видеоролики, сгенерированные AI, стали обычным явлением, но этим видео часто не хватает глубины и согласованности, и их трудно по-настоящему произвести впечатление на аудиторию. Чтобы решить эту проблему, возникла технология длинной контекстной настройки (LCT). Эта технология дает созданию видеороликов AI моделирует возможность направлять многократные повествовательные видеоролики, позволяя им свободно переключаться между различными снимками, такими как фильмы и сериалы, чтобы создать более последовательную и захватывающую сюжетную сцену.

В прошлом лучшие модели генерации видео с ИИ, такие как Sora, Kling и Gen3, смогли генерировать реалистичные видео с одной линзой до одной минуты. Тем не менее, эти модели по-прежнему имеют огромные проблемы в создании многопользовательских повествовательных видеороликов. Сцена фильма часто состоит из нескольких различных видео-видео, которые отражают одно и то же последовательное событие, которое требует, чтобы модель поддержала высокую степень последовательности в визуальном виде и временной динамике.
Возьмите классическую сцену, где Джек и Рут встречаются на палубе в фильме «Титаник», в котором есть четыре главных снимка: крупный план, оглядываясь назад, средний снимок разговоров Рут, широкоугольный снимок Рут, идущей в сторону Джека, и крупным планом Джека, обнимая Рут сзади. Чтобы создать такую сцену, необходимо не только обеспечить консистенцию характеристик характера, фона, света и тонов, но и поддерживать ритм движения персонажа и гладкость движения камеры, чтобы обеспечить плавность повествования.
Чтобы преодолеть разрыв между генерацией с одной линзой и повествованием с несколькими линзами, исследователи предложили различные подходы, но большинство из этих методов имеют ограничения. Некоторые методы полагаются на ввод ключевых визуальных элементов, чтобы вызвать визуальную консистенцию по всему объективу, но их трудно контролировать более абстрактные элементы, такие как свет и тона. Другие методы образуют когерентный набор ключевых кадров, а затем используют модель изображения-видео (I2V) для самостоятельного синтеза каждой линзы, что трудно обеспечить временную согласованность между линзами, и редкие ключевые кадры также ограничивают эффективность условий.
Появление технологии LCT точно для решения этих проблем. Он расширяет контекстное окно модели диффузии видео с одной линзой, позволяя ему изучать согласованность между выстрелами непосредственно из видеодантеров на уровне сцены. Основной инновационный дизайн LCT включает в себя расширение механизмов полного внимания, внедрение 3D -позиции и стратегии асинхронного шума. Эти проекты позволяют модели «фокусировать» всю визуальную и текстовую информацию всей сцены одновременно при создании видео, тем самым лучше понимать и поддерживать межполосные зависимости.
Результаты эксперимента показывают, что модель одновязой, поправкой на LCT, хорошо работает при создании когерентных многопользовых сцен и демонстрирует некоторые удивительные новые способности. Например, его можно сгенерировать в комбинации на основе данной роли идентификации и изображения среды, даже если модель ранее не была специально обучена для таких задач. Кроме того, модель LCT также поддерживает расширение ауторегрессии линзы, которое можно достичь, независимо от того, является ли это непрерывным расширением однополосной линзы или расширением мульти-линзы с переключением линз. Эта функция особенно полезна для длинного создания видео, потому что она разбивает длинное генерацию видео на несколько сегментов сцены, что облегчает пользователям вносить интерактивные модификации.
Дальнейшее, исследователи также обнаружили, что после LCT модели с двунаправленным вниманием могут быть в дальнейшем настроены на контекстуальное причинно-следственное внимание. Этот улучшенный механизм внимания остается двунаправленным вниманием в каждой линзе, но между линзами информация может переходить только от предыдущих линз в последующие линзы. Этот односторонний информационный поток позволяет эффективно использовать KV-кэш (механизм кэширования) во время генерации авторегрессии, тем самым значительно снижая вычислительные накладные расходы.
Как показано на рисунке 1, технология LCT может быть непосредственно применена к производству короткометражных фильмов для достижения генерации видео на уровне сцены. Еще более захватывающе, он также порождает множество появляющихся возможностей, таких как интерактивные режиссеры с несколькими линзами, расширение однополосной линзы и сочетание нулевых образцов, хотя модель никогда не была обучена для этих специфических задач. Как показано на рисунке 2, показан пример видеодантеров на уровне сцены, который содержит глобальные подсказки (описание персонажа, среды и резюме истории) и конкретные описания событий для каждого снимка.
Таким образом, длинная корректировка контекста (LCT) открывает новый путь для более практического создания визуального контента, расширяя окно контекста модели диффузии видео с одной линзой, что позволяет ему изучать когерентность на уровне сцены непосредственно из данных. Эта технология не только улучшает повествовательную способность и согласованность видео, сгенерированных AI, но также предоставляет новые идеи для будущего длинного генерации видео и интерактивного редактирования видео. У нас есть основания полагать, что будущее создание видео станет более умным и креативным благодаря достижениям в области таких технологий, как LCT.
Адрес проекта: https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
Бумажный адрес: https://arxiv.org/pdf/2503.10589