Alibaba เพิ่งประกาศแหล่งที่มาเต็มรูปแบบของโมเดลการสร้างวิดีโอ - Wanxiang 2.1 และเปิดตัวสองรุ่น 14B และ 1.3B ในฐานะรุ่นมืออาชีพรุ่น 14B มีประสิทธิภาพสูงและสามารถให้การแสดงออกทางวิดีโอชั้นนำของอุตสาหกรรมเหมาะสำหรับสถานการณ์ที่มีความต้องการสูงมากสำหรับคุณภาพวิดีโอ ในขณะที่เวอร์ชัน 1.3B เป็นเวอร์ชันที่รวดเร็วเหมาะสำหรับการ์ดกราฟิกเกรดผู้บริโภคและสามารถสร้างวิดีโอคุณภาพสูง 480p ด้วยหน่วยความจำวิดีโอเพียง 8.2GB ซึ่งเหมาะสำหรับการพัฒนาแบบจำลองรองและการวิจัยเชิงวิชาการ

ตามรายงานอย่างเป็นทางการ Wanxiang 2.1 ทำงานได้ดีในการจัดการการเคลื่อนไหวที่ซับซ้อนฟื้นฟูกฎหมายทางกายภาพที่แท้จริงปรับปรุงพื้นผิวของภาพยนตร์และโทรทัศน์และการเพิ่มประสิทธิภาพคำแนะนำและสามารถตอบสนองความต้องการที่หลากหลายของผู้สร้างนักพัฒนาและผู้ใช้องค์กร ผ่าน Tongyi Wanxiang ผู้ใช้สามารถสร้างวิดีโอที่มีคุณภาพสูงได้อย่างง่ายดายโดยเฉพาะอย่างยิ่งในสาขาการโฆษณาและวิดีโอสั้น ๆ ซึ่งตรงตามความต้องการสูงสำหรับความคิดสร้างสรรค์
ในการตรวจสอบที่เชื่อถือได้ชุด Vbench, Tongyi Wanxiang ได้รับการจัดอันดับเป็นครั้งแรกด้วยคะแนนรวม 86.22%ซึ่งเหนือกว่ารุ่นการสร้างวิดีโอในประเทศและต่างประเทศอื่น ๆ เช่น SORA, Minimax และ Luma การประเมินผลนี้ขึ้นอยู่กับกระแสหลักและกระแสไฟฟ้าเชิงเส้นเสียงที่ตรงกันและปรับปรุงความสามารถในการสร้างของแบบจำลองผ่านชุดของนวัตกรรมทางเทคโนโลยี โดยเฉพาะอย่างยิ่งโมดูล VAE ที่มีประสิทธิภาพสูงที่ได้รับการพัฒนาด้วยตนเองนั้นประสบความสำเร็จในการรับรู้การบีบอัดช่องว่างวิดีโอที่ซ่อนอยู่ 256 เท่ารองรับการเข้ารหัสที่มีประสิทธิภาพและการถอดรหัสวิดีโอที่มีความยาวใด ๆ

ในกระบวนการสร้างวิดีโอ Tongyi Wanxiang ใช้กลไกความสนใจอย่างเต็มที่บนพื้นฐานของโครงสร้าง DIT กระแสหลักเพื่อจำลองการพึ่งพาระยะเวลาในอวกาศได้อย่างมีประสิทธิภาพและให้แน่ใจว่าคุณภาพสูงและความสอดคล้องของวิดีโอที่สร้างขึ้น กลยุทธ์การฝึกอบรมแบบจำลองใช้วิธีการฝึกอบรมทีละขั้นตอน 6 ขั้นตอนและค่อยๆแนะนำข้อมูลความละเอียดสูงจากการฝึกอบรมข้อมูลความละเอียดต่ำเบื้องต้นเพื่อให้แน่ใจว่าประสิทธิภาพที่ยอดเยี่ยมของแบบจำลองภายใต้เงื่อนไขที่แตกต่างกัน นอกจากนี้ Tongyi Wanxiang ยังได้ใช้กระบวนการทำความสะอาดที่เข้มงวดในการประมวลผลข้อมูลเพื่อให้แน่ใจว่าข้อมูลการฝึกอบรมที่มีคุณภาพสูง
ในแง่ของการฝึกอบรมการฝึกอบรมและการอนุมานประสิทธิภาพ Tongyi Wanxiang ใช้เทคโนโลยีขั้นสูงที่หลากหลายเช่นกลยุทธ์การฝึกอบรมแบบกระจายการเพิ่มประสิทธิภาพการเปิดใช้งานและการจัดการหน่วยความจำวิดีโอเพื่อให้แน่ใจว่ามีความเสถียรและประสิทธิภาพการอนุมานของการฝึกอบรมแบบจำลอง ด้วยการรวมเข้ากับการกำหนดเวลาอัจฉริยะของคลัสเตอร์การฝึกอบรมคลาวด์อาลีบาบาโมเดลสามารถระบุความผิดพลาดได้โดยอัตโนมัติและเริ่มต้นใหม่อย่างรวดเร็วในระหว่างกระบวนการฝึกอบรมเพื่อให้มั่นใจถึงความคืบหน้าของกระบวนการฝึกอบรมที่ราบรื่น
Tongyi Wanxiang 2.1 ได้รับการเปิดแหล่งที่มาบนแพลตฟอร์มเช่น GitHub และ Hugging Face สนับสนุนกรอบหลักที่หลากหลายให้นักพัฒนาและนักวิจัยที่ได้รับประสบการณ์การใช้งานที่สะดวก ไม่ว่าจะเป็นการพัฒนาต้นแบบอย่างรวดเร็วหรือการปรับใช้การผลิตที่มีประสิทธิภาพ Tongyi Wanxiang สามารถตอบสนองความต้องการของผู้ใช้ที่แตกต่างกันในการฉีดพลังใหม่ในการพัฒนาเทคโนโลยีการสร้างวิดีโอ

ทางเข้าชุมชน Magic Tower: https://modelscope.cn/organization/wan-ai
ประเด็นสำคัญ:
Tongyi Wanxiang 2.1 เป็นโอเพ่นซอร์สสนับสนุนความต้องการการสร้างวิดีโอที่หลากหลาย
การชนะด้วยคะแนนสูง 86.22% ในการตรวจสอบ VBench นำไปสู่รุ่นอื่น ๆ
การฝึกอบรมทีละขั้นตอนและการเพิ่มประสิทธิภาพทางเทคนิคหลายครั้งได้ถูกนำมาใช้เพื่อปรับปรุงประสิทธิภาพการสร้างและคุณภาพ