Baru -baru ini, Alibaba mengumumkan bahwa model generasi videonya WANX2.1 akan sepenuhnya open source dan mengumumkan efek video terbaru. Berita ini telah menarik perhatian luas dalam komunitas teknologi, menandai terobosan besar lainnya dalam teknologi AI di bidang pembuatan video.
Pada Januari 2025, tim Tongyi Wanxiang dari Alibaba meluncurkan model multimodal WANX2.1. Dengan kinerja yang luar biasa di bidang pembuatan video, model ini menduduki puncak daftar ulasan VBench, mendefinisikan kembali standar pembuatan visual yang digerakkan oleh AI. Tim Wanx mengumumkan tadi malam bahwa mereka akan membuka sumber model pembuatan video WANX2.1 terbaru, yang tidak diragukan lagi akan mempromosikan mempopulerkan dan penerapan teknologi AI lebih lanjut.
Dilaporkan bahwa WANX2.1 mengatasi masalah pembuatan teks yang sudah lama ada dalam model video AI untuk pertama kalinya, menjadi model pertama di dunia untuk mendukung efek khusus teks Cina dan Inggris. Pengguna hanya perlu memasukkan instruksi teks untuk menghasilkan video dinamis dan mencocokkannya dengan beragam transisi, partikel, dan efek khusus lainnya. Selain itu, melalui arsitektur VAE dan DIT efisien yang dikembangkan sendiri, model ini menyadari pengkodean dan decoding yang efisien dari video 1080p yang sangat lama, secara signifikan meningkatkan kemampuan pemodelan konteks spasial dan temporal.
Dalam hal simulasi hukum fisik, WANX2.1 dapat secara akurat mengembalikan skenario kompleks seperti tabrakan, rebound, dan pemotongan. Misalnya, ketika menghasilkan video "hujan jatuh di permukaan payung dan memercikkan air" atau "skaters figur berputar", koordinasi fisik dan lintasan gerakan sejalan dengan hukum fisik nyata, secara efektif memecahkan masalah distorsi fisik dan pergerakan kaku model tradisional. Terobosan teknologi ini membawa pengalaman visual yang lebih realistis dan halus untuk generasi video AI.