Недавно Alibaba выпустила новую модель Generation Generation с открытым исходным кодом WAN2.1 поздно ночью. Эта модель быстро возглавила список VBENCH с объемом параметров 14B и стала нынешним лидером в области генерации видео. По сравнению с ранее выпущенным QWQ-MAX, WAN2.1 особенно хорошо работает в деталях сложных движений и может плавно реализовать синхронный танец нескольких персонажей, демонстрируя ее сильную техническую силу.
В официальной демонстрации WAN2.1 не только успешно решил трудности в создании статического изображения, но и достиг нового уровня в обработке текстов. Хотя существуют определенные трудности в развертывании параметров 14b на видеокартах персональных потребителей, Alibaba специально запустила небольшую версию 1.3B, которая поддерживает разрешение 480p и может работать плавно, используя графическую карту 4070 с графической памятью 12 ГБ, предоставляя больше вариантов для обычных пользователей.

В дополнение к версиям 14b и 1.3b, Alibaba также выпустила две дополнительные модели генерации видео, оба с использованием протокола Apache2.0, которые пользователи могут использовать бесплатно. Пользователи могут получить доступ к этой модели через платформу, предоставленную Alibaba для быстрого генерации видео. Тем не менее, из -за всплеска объема пользователя, могут быть случаи, когда время ожидания слишком длинное. Для пользователей с определенной технической основой они также могут установить и отлаживать их сами по различным каналам, таким как Huggingface и Modai Community.
Самым большим событием WAN2.1 является его технологические инновации. Модель принимает архитектуру диффузионного трансформатора и объединяет трехмерный вариационный аутокодер для разработки специально для генерации видео. Внедряя различные стратегии сжатия и параллельные стратегии, модель значительно повышает эффективность генерации, обеспечивая при этом качество. Исследования показывают, что скорость реконструкции ВАН в 2,5 раза больше, чем у текущих аналогичных технологий, что значительно экономит вычислительные ресурсы.
С точки зрения пользовательского опыта, WAN2.1 также получил широкую похвалу. Независимо от того, генерирует ли он детали в динамических сценах или естественных физических эффектах, производительность модели впечатляет. Благодаря этой модели пользователи могут не только производить высококачественные видео работ, но и легко реализовать динамическое представление текста, принося больше возможностей для их создания.
Модель Alibaba WAN2.1 не только технологически продвинута, но и предоставляет более творческую свободу для создателей, отмечая еще один серьезный прорыв в технологии генерации видео. Выпуск этой модели, несомненно, будет дополнительно способствовать развитию области генерации видео и принесет более инновационные впечатления для пользователей.