เมื่อเร็ว ๆ นี้ HPC-AI Tech ประกาศเปิดตัว Open-Sora 2.0 ซึ่งเป็นระบบ AI วิดีโอที่ก้าวหน้าซึ่งสามารถบรรลุคุณภาพระดับการค้าได้เพียงประมาณหนึ่งในสิบของค่าใช้จ่ายในการฝึกอบรมทั่วไป ความคืบหน้านี้นับเป็นการเปลี่ยนกระบวนทัศน์ที่เป็นไปได้ในสนามวิดีโอ AI ที่ใช้ทรัพยากรมากเทียบเท่ากับประสิทธิภาพที่เห็นได้ในแบบจำลองภาษา
ในขณะที่ระบบการสร้างวิดีโอคุณภาพสูงที่มีอยู่เช่น Gen Gen และ Step-Video-T2V อาจต้องใช้เงินหลายล้านดอลลาร์ในการฝึกอบรมการใช้จ่ายการฝึกอบรมของ Open-SORA2.0 นั้นอยู่ที่ประมาณ $ 200,000 แม้จะมีการลดต้นทุนอย่างมาก แต่การทดสอบแสดงให้เห็นว่าคุณภาพของผลผลิตนั้นเปรียบได้กับระบบการค้าที่จัดตั้งขึ้นเช่นรันเวย์ Gen-3Alpha และ Hunyuanvideo ระบบใช้ 224 Nvidia H200GPUs สำหรับการฝึกอบรม
เคล็ดลับ: "ผู้หญิงสองคนนั่งบนโซฟาสีเบจห้องพักอบอุ่นและสะดวกสบายพร้อมผนังอิฐในพื้นหลังพวกเขาพูดอย่างมีความสุขยิ้มและยกแว่นตาเพื่อเฉลิมฉลองไวน์แดงในการยิงกลางฉาก" - วิดีโอ: HPC-AI Tech
Open-SORA2.0 บรรลุประสิทธิภาพผ่านกระบวนการฝึกอบรมสามขั้นตอนใหม่เริ่มต้นด้วยวิดีโอความละเอียดต่ำและค่อยๆปรับแต่งให้มีความละเอียดสูงขึ้น แบบจำลองภาพที่ผ่านการฝึกอบรมมาแล้วเช่นฟลักซ์เพิ่มประสิทธิภาพการใช้ทรัพยากรให้เหมาะสมยิ่งขึ้น หลักของมันคือวิดีโอ DC-AEAENCoder ซึ่งให้อัตราการบีบอัดที่ยอดเยี่ยมเมื่อเทียบกับวิธีการดั้งเดิม นวัตกรรมนี้แปลเป็นความเร็วในการฝึกอบรมที่เร็วขึ้น 5.2x และความเร็วในการสร้างวิดีโอที่เร็วกว่า Tenx ในขณะที่อัตราการบีบอัดที่สูงขึ้นนำไปสู่การลดรายละเอียดการส่งออกเล็กน้อย แต่ก็เร่งกระบวนการสร้างวิดีโออย่างมาก
เคล็ดลับ: "มะเขือเทศท่องผักกาดหอมลงไปในน้ำตกซอสทุ่งหญ้าทุ่งหญ้าท่องที่พูดเกินจริงและเอฟเฟกต์คลื่นที่ราบรื่นเน้นความสนุกของแอนิเมชั่น 3 มิติ" - วิดีโอ: HPC-AI Tech
ระบบโอเพ่นซอร์สนี้สามารถสร้างวิดีโอจากคำอธิบายข้อความและภาพเดียวและช่วยให้ผู้ใช้สามารถควบคุมความเข้มของการเคลื่อนไหวในคลิปที่สร้างขึ้นผ่านฟังก์ชั่นการให้คะแนนการเคลื่อนไหว ตัวอย่างที่จัดทำโดย HPC-AI Tech แสดงสถานการณ์ที่หลากหลายรวมถึงบทสนทนาที่สมจริงและภาพเคลื่อนไหวแปลก ๆ
อย่างไรก็ตามปัจจุบัน Open-SORA 2.0 มีข้อ จำกัด ในการแก้ปัญหา (768x768 พิกเซล) และระยะเวลาวิดีโอสูงสุด (5 วินาทีหรือ 128 เฟรม) ซึ่งด้อยกว่าความสามารถของโมเดลชั้นนำเช่น SORA ของ OpenAI อย่างไรก็ตามประสิทธิภาพของมันในพื้นที่สำคัญเช่นคุณภาพภาพความถูกต้องของตัวชี้นำและการประมวลผลการเคลื่อนไหวกำลังเข้าใกล้มาตรฐานเชิงพาณิชย์ เป็นที่น่าสังเกตว่าคะแนน VBench ของ Open-SORA2.0 นั้นอยู่เบื้องหลัง SORA ของ OpenAi เพียง 0.69% ซึ่งเป็นการปรับปรุงที่สำคัญจากรุ่นก่อนหน้า 4.52%
เคล็ดลับ: "เห็ดมนุษย์มานุษยวิทยาจัดงานปาร์ตี้ดิสโก้ในป่าวิเศษมืดพร้อมกับไฟนีออนกระพริบและขั้นตอนการเต้นรำที่พูดเกินจริงพื้นผิวที่เรียบเนียนและพื้นผิวสะท้อนแสงเน้นรูปลักษณ์ 3 มิติที่ตลก" - วิดีโอ: HPC-AI Tech
กลยุทธ์ที่ประหยัดต้นทุนของ Open-SORA2.0 สะท้อนถึง“ ช่วงเวลาที่ลึกลงไป” ในรูปแบบภาษาเมื่อวิธีการฝึกอบรมที่ดีขึ้นทำให้ระบบโอเพนซอร์สเพื่อให้ได้ประสิทธิภาพการทำงานเชิงพาณิชย์ในราคาที่ต่ำกว่าระบบการค้า การพัฒนานี้อาจสร้างแรงกดดันต่อราคาในสนาม AI วิดีโอซึ่งปัจจุบันถูกเรียกเก็บเงินโดยไม่กี่วินาทีเนื่องจากความต้องการคอมพิวเตอร์สูง

การเปรียบเทียบค่าใช้จ่ายในการฝึกอบรม: Open-SORA2.0 มีราคาประมาณ $ 200,000 ในขณะที่ Gen Movie มีราคา 2.5 ล้านดอลลาร์และ Step-Video-T2V มีราคา 1 ล้านดอลลาร์ - รูปถ่าย: HPC-AI Tech
แม้จะมีความคืบหน้านี้ช่องว่างประสิทธิภาพระหว่างโอเพนซอร์สและวิดีโอเชิงพาณิชย์ AI ยังคงมากกว่ารุ่นภาษาโดยเน้นถึงความท้าทายทางเทคนิคอย่างต่อเนื่องในสนาม Open-SORA2.0 พร้อมใช้งานเป็นโครงการโอเพ่นซอร์สบน GitHub