เมื่อเร็ว ๆ นี้กลุ่ม Yuexingchen และ Geely Automobile Group ได้ประกาศการพัฒนาทางเทคโนโลยีที่สำคัญ-สองขั้นตอน STEP Series MultiModal รุ่นคือโมเดลการสร้างวิดีโอขั้นตอน -Tep-Video-T2V และโมเดลเสียงขั้นตอน การทำงานร่วมกันนี้นับเป็นการก้าวกระโดดอีกครั้งในสาขาการสร้างวิดีโอและการประมวลผลด้วยเสียงทำให้นักพัฒนาได้รับการสนับสนุนเครื่องมือที่ทรงพลัง
ในหมู่พวกเขาโมเดลการสร้างวิดีโอขั้นตอน T2V เป็นผู้นำโลกด้วยพารามิเตอร์ 30 พันล้านและประสิทธิภาพที่ยอดเยี่ยม รุ่นนี้สามารถสร้างวิดีโอคุณภาพสูงได้โดยตรงด้วย 204 เฟรมและความละเอียด 540p เพื่อให้มั่นใจถึงความหนาแน่นของข้อมูลและความสอดคล้องของเนื้อหาที่สร้างขึ้น ผลการประเมินแสดงให้เห็นว่า Step-Video-T2V ทำงานได้อย่างยอดเยี่ยมในการปฏิบัติตามคำสั่งการเคลื่อนไหวเรียบเนียนความมีเหตุผลทางกายภาพและสุนทรียภาพซึ่งเหนือกว่าโมเดลวิดีโอโอเพ่นซอร์สที่มีอยู่อย่างมีนัยสำคัญ

ปัจจุบันทั้งสองรุ่นนี้มีอยู่ในแอพ Yuewen และนักพัฒนาสามารถสัมผัสได้ฟรีและให้คำแนะนำที่มีค่า โมเดลการสร้างวิดีโอแบบขั้นตอนที่ Video-T2V แสดงให้เห็นถึงความสามารถในการสร้างที่ยอดเยี่ยมในการเคลื่อนไหวที่ซับซ้อนตัวละครที่สวยงามและจินตนาการภาพ สามารถเข้าใจคำแนะนำและช่วยให้ผู้สร้างวิดีโอบรรลุการนำเสนอที่สร้างสรรค์ได้อย่างมีประสิทธิภาพ ไม่ว่าจะเป็นบัลเล่ต์ที่สง่างามการเผชิญหน้าคาราเต้ที่รุนแรงหรือเกมแบดมินตันที่ตึงเครียดและการดำน้ำแบบพลิกความเร็วสูงขั้นตอนที่วิดีโอสามารถสร้างภาพที่แท้จริงและสม่ำเสมอทางร่างกาย
นอกจากนี้โมเดลยังรองรับโหมดการเคลื่อนไหวของเลนส์และประเภทฉากที่หลากหลายเพื่อสร้างเอฟเฟกต์ภาพของการเคลื่อนไหวของกระจกขนาดใหญ่ ตัวละครที่สร้างขึ้นนั้นมีความสมจริงและมีชีวิตชีวามากขึ้นด้วยรายละเอียดมากมายและการแสดงออกที่เป็นธรรมชาติทำให้มีความเป็นไปได้มากขึ้นสำหรับการสร้างวิดีโอ
นักพัฒนาสามารถรับรายละเอียดทางเทคนิคและทรัพยากรเพิ่มเติมผ่านลิงก์ต่อไปนี้:
GitHub: https://github.com/stepfun-ai/step-audio
Hugging Face: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
รายงานทางเทคนิค: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf