Di bidang generasi video, Openai Sora telah dianggap sebagai tolok ukur industri karena biaya pelatihan yang tinggi dan kinerja yang sangat baik. Namun, Luchen Technology baru-baru ini mengumumkan open source dari model pembuatan video Open-Sora2.0, yang tidak diragukan lagi menyebabkan sensasi besar di industri. Open-Sora2.0 dengan cepat menjadi fokus baru teknologi pembuatan video dengan biaya pelatihan yang sangat rendah dan kinerja yang dekat dengan model top.
Biaya pelatihan Open-Sora2.0 hanya US $ 200.000, yang setara dengan investasi 224 GPU, tetapi telah berhasil melatih model pembuatan video tingkat komersial dengan 11 miliar parameter. Prestasi ini tidak hanya menunjukkan terobosan teknologi Luchen Technology, tetapi juga membawa kemungkinan baru ke bidang pembuatan video.

Meskipun biaya open-sora2.0 jauh lebih rendah dari Openai Sora, kinerjanya tidak kurang dari itu. Open-Sora2.0 telah melakukan secara mengesankan dalam ulasan otoritatif VBENCH dan tes preferensi pengguna, dan bahkan dapat bersaing dengan model sumber tertutup yang menelan biaya jutaan dolar untuk melatih beberapa metrik utama. Terutama dalam evaluasi VBench, kesenjangan kinerja antara Open-Sora2.0 dan Openai Sora telah menyempit secara signifikan dari 4,52% sebelumnya menjadi hanya 0,69%, hampir mencapai kinerja yang komprehensif.
Yang lebih menarik adalah bahwa skor terbuka-sora2.0 bahkan melampaui Hunyuanvideo Tencent di VBench, menunjukkan kekuatannya yang kuat dalam teknologi generasi video. Prestasi ini tidak hanya membuktikan keunggulan teknologi dari open-sora2.0, tetapi juga menetapkan tolok ukur baru untuk teknologi pembuatan video open source.
Dalam ulasan preferensi pengguna, Open-Sora2.0 memiliki setidaknya dua indikator yang melampaui model SOTA open source hUNYUANVideo dan model bisnis landasan pacu Gen-3Alpha dalam tiga dimensi utama kinerja visual, konsistensi teks, dan kinerja tindakan. Pencapaian ini lebih lanjut mengkonsolidasikan posisi terkemuka Sora2.0 di bidang pembuatan video.

Alasan mengapa open-sora2.0 dapat mencapai kinerja tinggi dengan biaya rendah adalah karena serangkaian inovasi teknologi dan strategi optimisasi. Pertama-tama, open-sora2.0 melanjutkan ide desain open-sora1.2, mengadopsi autoencoder 3D dan kerangka kerja pelatihan pencocokan aliran, dan memperkenalkan mekanisme perhatian penuh 3D untuk lebih meningkatkan kualitas pembuatan video.
Untuk mengejar optimasi biaya pamungkas, Open-Sora2.0 dimulai dari berbagai aspek: penyaringan data yang ketat memastikan input data pelatihan berkualitas tinggi, prioritas diberikan pada pelatihan resolusi rendah untuk mempelajari informasi gerak secara efisien, prioritas diberikan pada tugas-tugas yang sangat optimal, dan mengadopsi sistem pelatihan yang sangat optimal, yang menggabungkan komputasi, dan mengadopsi skema pelatihan paralel yang lebih efisien, menggabungkan skema pelatihan paralel yang efisien, menggabungkan skema pelatihan paralel yang efisien, mengkombinasikan skema pelatihan paralel yang efisien, menggabungkan skema pelatihan paralel yang efisien, menggabungkan skema pelatihan paralel yang efisien, menggabungkan skema pelatihan paralel yang efisien, mengkombinasikan komputasi.
Diperkirakan bahwa biaya pelatihan tunggal lebih dari 10B model video open source di pasaran seringkali jutaan dolar, sementara open-sora2.0 mengurangi biaya ini sebesar 5-10 kali. Terobosan ini tidak hanya menurunkan ambang batas untuk pembuatan video berkualitas tinggi, tetapi juga memberi lebih banyak pengembang kesempatan untuk berpartisipasi dalam penelitian dan pengembangan teknologi pembuatan video.
Yang lebih terpuji adalah bahwa Open-Sora2.0 tidak hanya kode model open source dan bobot, tetapi juga kode pelatihan proses lengkap open source, yang tidak diragukan lagi akan sangat mempromosikan pengembangan seluruh ekosistem open source. Jumlah kutipan kertas akademik dari Open-Sora2.0 telah menerima hampir 100 kutipan dalam waktu setengah tahun, peringkat pertama dalam peringkat pengaruh open source global, menjadi salah satu proyek pembuatan video open source paling berpengaruh di dunia.
Tim Open-Sora2.0 juga secara aktif mengeksplorasi penerapan autoencoder video rasio kompresi tinggi untuk secara signifikan mengurangi biaya inferensi. Mereka melatih autoencoder video dengan rasio kompresi tinggi (4 × 32 × 32) untuk memperpendek waktu inferensi menghasilkan video 768px dan 5 detik dalam satu kartu dari hampir 30 menit menjadi dalam 3 menit, dan kecepatan telah meningkat 10 kali. Inovasi ini berarti bahwa kami dapat menghasilkan konten video berkualitas tinggi lebih cepat di masa depan.
Model Open Source Video Generation Open-Sora2.0 diluncurkan oleh Luchen Technology, dengan karakteristik open source berbiaya rendah, berkinerja tinggi dan komprehensif, tidak diragukan lagi membawa tren "paritas" yang kuat ke bidang pembuatan video. Munculnya tidak hanya mempersempit kesenjangan dengan model sumber tertutup teratas, tetapi juga menurunkan ambang batas untuk pembuatan video berkualitas tinggi, memungkinkan lebih banyak pengembang untuk berpartisipasi dan bersama-sama mempromosikan pengembangan teknologi pembuatan video.
Repositori Open Source Github: https://github.com/hpcaitech/open-sora
Laporan Teknis: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf