ในสาขาการสร้างวิดีโอ Openai Sora ได้รับการยกย่องว่าเป็นมาตรฐานอุตสาหกรรมสำหรับค่าใช้จ่ายในการฝึกอบรมที่สูงและประสิทธิภาพที่ยอดเยี่ยม อย่างไรก็ตามเทคโนโลยี Luchen เพิ่งประกาศแหล่งที่มาของรุ่นเปิดวิดีโอ Open-SORA2.0 ซึ่งทำให้เกิดความรู้สึกอย่างมากในอุตสาหกรรมอย่างไม่ต้องสงสัย Open-SORA2.0 กลายเป็นจุดสนใจใหม่ของเทคโนโลยีการสร้างวิดีโอด้วยต้นทุนการฝึกอบรมที่ต่ำมากและประสิทธิภาพใกล้เคียงกับรุ่นชั้นนำ
ค่าใช้จ่ายในการฝึกอบรมของ Open-SORA2.0 มีเพียง 200,000 ดอลลาร์สหรัฐซึ่งเทียบเท่ากับการลงทุน 224 GPU แต่ได้รับการฝึกอบรมรูปแบบการสร้างวิดีโอระดับเชิงพาณิชย์ด้วยพารามิเตอร์ 11 พันล้าน ความสำเร็จนี้ไม่เพียงแสดงให้เห็นถึงความก้าวหน้าทางเทคโนโลยีของ Luchen Technology เท่านั้น แต่ยังนำความเป็นไปได้ใหม่ ๆ มาสู่การสร้างวิดีโอด้วย

แม้ว่า Open-SORA2.0 มีค่าใช้จ่ายต่ำกว่า Openai Sora มาก แต่ประสิทธิภาพของมันก็ไม่น้อยไปกว่านั้น Open-SORA2.0 ได้ดำเนินการอย่างน่าประทับใจในการตรวจสอบที่เชื่อถือได้ VBENCH และการทดสอบการตั้งค่าของผู้ใช้และยังสามารถแข่งขันกับรุ่นปิดแหล่งข้อมูลที่มีค่าใช้จ่ายหลายล้านดอลลาร์เพื่อฝึกอบรมตัวชี้วัดหลักหลายตัว โดยเฉพาะอย่างยิ่งในการประเมิน VBench ช่องว่างประสิทธิภาพระหว่าง Open-SORA2.0 และ Openai Sora ได้แคบลงอย่างมีนัยสำคัญจาก 4.52% ก่อนหน้านี้เป็นเพียง 0.69% เกือบจะได้รับประสิทธิภาพที่ครอบคลุม
สิ่งที่น่าตื่นเต้นยิ่งกว่านั้นคือคะแนน Open-Sora2.0 ยิ่งกว่า Hunyuanvideo ของ Tencent ใน Vbench แสดงให้เห็นถึงความแข็งแกร่งในเทคโนโลยีการสร้างวิดีโอ ความสำเร็จนี้ไม่เพียง แต่พิสูจน์ให้เห็นถึงข้อได้เปรียบทางเทคโนโลยีของ Open-SORA2.0 แต่ยังกำหนดเกณฑ์มาตรฐานใหม่สำหรับเทคโนโลยีการสร้างวิดีโอโอเพนซอร์ส
ในการตรวจสอบการตั้งค่าของผู้ใช้ Open-SORA2.0 มีตัวบ่งชี้อย่างน้อยสองตัวที่เหนือกว่าโมเดลโอเพนซอร์ส SOTA Hunyuanvideo และรูปแบบธุรกิจ GEN-3ALPHA ในสามมิติสำคัญของประสิทธิภาพการมองเห็นความสอดคล้องของข้อความและประสิทธิภาพการทำงาน ความสำเร็จนี้จะรวมตำแหน่งผู้นำของ Open-SORA2.0 ในสนามสร้างวิดีโอ

เหตุผลที่ Open-SORA2.0 สามารถบรรลุประสิทธิภาพสูงเช่นนี้ในราคาที่ต่ำนั้นเกิดจากชุดของนวัตกรรมทางเทคโนโลยีและกลยุทธ์การเพิ่มประสิทธิภาพ ก่อนอื่น Open-SORA2.0 ยังคงแนวคิดการออกแบบของ Open-SORA1.2 ยังคงใช้เฟรมเวิร์ก AutoEncoder 3D และการจับคู่การฝึกอบรมและแนะนำกลไกความสนใจแบบ 3 มิติเพื่อปรับปรุงคุณภาพของการสร้างวิดีโอ
ในการดำเนินการเพิ่มประสิทธิภาพค่าใช้จ่ายสูงสุด Open-SORA2.0 เริ่มต้นจากหลายแง่มุม: การคัดกรองข้อมูลที่เข้มงวดทำให้มั่นใจได้ว่าข้อมูลการฝึกอบรมที่มีคุณภาพสูงให้ความสำคัญกับการฝึกอบรมความละเอียดต่ำเพื่อเรียนรู้ข้อมูลการเคลื่อนไหวอย่างมีประสิทธิภาพ
มีการประเมินว่าค่าใช้จ่ายของการฝึกอบรมเพียงครั้งเดียวของโมเดลวิดีโอโอเพนซอร์สมากกว่า 10b ในตลาดมักจะเป็นล้านดอลลาร์ในขณะที่ Open-Sora2.0 ลดค่าใช้จ่ายนี้ลง 5-10 ครั้ง การพัฒนานี้ไม่เพียง แต่ช่วยลดเกณฑ์สำหรับการสร้างวิดีโอคุณภาพสูง แต่ยังเปิดโอกาสให้นักพัฒนาซอฟต์แวร์มีส่วนร่วมในการวิจัยและพัฒนาเทคโนโลยีการสร้างวิดีโอ
สิ่งที่น่ายกย่องยิ่งกว่านั้นคือ Open-SORA2.0 ไม่เพียง แต่รหัสโมเดลโอเพ่นซอร์สและน้ำหนักเท่านั้น แต่ยังรวมถึงรหัสการฝึกอบรมแบบเต็มกระบวนการโอเพนซอร์สซึ่งจะส่งเสริมการพัฒนาระบบนิเวศโอเพนซอร์สทั้งหมดอย่างไม่ต้องสงสัย จำนวนการอ้างอิงบทความทางวิชาการของ Open-SORA2.0 ได้รับการอ้างอิงเกือบ 100 ครั้งภายในครึ่งปีซึ่งจัดอันดับเป็นอันดับแรกในการจัดอันดับอิทธิพลของโอเพ่นซอร์สระดับโลกกลายเป็นหนึ่งในโครงการสร้างวิดีโอโอเพนซอร์สที่มีอิทธิพลมากที่สุดในโลก
ทีม Open-SORA2.0 กำลังสำรวจแอปพลิเคชันวิดีโอ Autoencoder วิดีโออัตราส่วนการบีบอัดสูงเพื่อลดต้นทุนการอนุมานอย่างมีนัยสำคัญ พวกเขาฝึกวิดีโออัตโนมัติด้วยอัตราส่วนการบีบอัดสูง (4 × 32 × 32) เพื่อลดเวลาการอนุมานของการสร้างวิดีโอ 768px และ 5 วินาทีในการ์ดใบเดียวจากเกือบ 30 นาทีเป็น 3 นาทีและความเร็วเพิ่มขึ้น 10 ครั้ง นวัตกรรมนี้หมายความว่าเราสามารถสร้างเนื้อหาวิดีโอคุณภาพสูงได้เร็วขึ้นในอนาคต
โมเดลการสร้างวิดีโอโอเพ่นซอร์ส Open-SORA2.0 เปิดตัวโดย Luchen Technology ด้วยลักษณะที่มีราคาต่ำมีประสิทธิภาพสูงและมีลักษณะโอเพนซอร์สที่ครอบคลุมไม่ต้องสงสัยนำแนวโน้ม "ความเท่าเทียมกัน" ที่แข็งแกร่งมาสู่ฟิลด์การสร้างวิดีโอ การเกิดขึ้นของมันไม่เพียง แต่ทำให้ช่องว่างลดลงด้วยโมเดลปิดด้านบน แต่ยังลดเกณฑ์สำหรับการสร้างวิดีโอคุณภาพสูงทำให้นักพัฒนาสามารถเข้าร่วมและส่งเสริมการพัฒนาเทคโนโลยีการสร้างวิดีโอได้มากขึ้น
GitHub Open Source Repository: https://github.com/hpcaitech/open-sora
รายงานทางเทคนิค: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf