Alibaba tongyi Wanxiang объявляет о модели генерации видео с открытым исходным кодом Wanx 2.1 - статьи AI

Автор：Eve Cole Время обновления：2025-05-27 20:25:02

Недавно Alibaba объявила, что ее модель генерации видео Wanx2.1 будет полностью открытым исходным кодом и объявила о последних видеоэффектах. Эта новость привлекла широкое внимание в технологическом сообществе, отметив еще один серьезный прорыв в технологии искусственного интеллекта в области генерации видео.

В январе 2025 года команда Alibaba Tongyi Wanxiang запустила мультимодальную модель WANX2.1. Благодаря своей выдающейся производительности в области генерации видео, модель возглавила список обзоров VBENCH, переосмысленный стандарты визуального создания, управляемые ИИ. Вчера вечером команда WANX объявила, что открыт свою последнюю модель генерации видео WANX2.1, которая, несомненно, будет способствовать дальнейшей популяризации и применению технологии ИИ.

Сообщается, что WANX2.1 преодолевает давнюю проблему генерации текста в видео моделях искусственного интеллекта, став первой в мире моделью, поддерживающей китайские и английские текстовые спецэффекты. Пользователям необходимо вводить текстовые инструкции только для генерации динамических видео и сопоставить их с различными переходами, частицами и другими спецэффектами. Кроме того, благодаря саморазвитым эффективным архитектурам VAE и DIT модель реализует эффективное кодирование и декодирование бесконечно длинных видеороликов 1080p, значительно улучшая возможности пространственного и временного контекста.

С точки зрения моделирования физического закона, WANX2.1 может точно восстановить сложные сценарии, такие как столкновение, отскок и резка. Например, при создании видео «капли дождя, падающих на зонтичную поверхность и разбрызгивают воду» или «вращающиеся фигуры», физическая координация и траектория движения соответствуют реальным физическим законам, эффективно решают проблемы физического искажения и жестких движений традиционных моделей. Этот технологический прорыв привносит более реалистичный и плавный визуальный опыт в генерацию видео ИИ.