Im Bereich der Videogenerierung wurde Openai Sora als Branchen -Benchmark für seine hohen Schulungskosten und hervorragende Leistung angesehen. Die Luchen-Technologie kündigte jedoch kürzlich die Open Source seines Videogenerierungsmodells Open-SORA2.0 an, das zweifellos eine große Sensation in der Branche verursachte. Open-SORA2.0 wurde schnell zum neuen Fokus der Videogenerationstechnologie mit den extrem geringen Trainingskosten und der Leistung in der Nähe von Top-Modellen.
Die Schulungskosten von Open-Sora2.0 betragen nur 200.000 US-Dollar, was der Investition von 224 GPUs entspricht, aber ein Videogenerierungsmodell auf kommerzieller Ebene mit 11 Milliarden Parametern erfolgreich geschult hat. Diese Leistung zeigt nicht nur die technologischen Durchbrüche der Luchen -Technologie, sondern bringt auch neue Möglichkeiten auf den Bereich der Videogenerierung.

Obwohl Open-SORA2.0 viel niedriger kostet als Openai Sora, ist seine Leistung nicht geringer. Open-SORA2.0 hat in maßgeblichen Überprüfungen VBENch- und Benutzerpräferenztests beeindruckend durchgeführt und kann sogar mit geschlossenen Modellen konkurrieren, die Millionen von Dollar kosten, um auf mehreren Schlüsselmetriken zu trainieren. Insbesondere bei der VBench-Bewertung hat sich die Leistungslücke zwischen Open-SORA2.0 und Openai Sora von den vorherigen 4,52% auf nur 0,69% erheblich eingeschränkt und fast eine umfassende Leistung erreicht.
Noch aufregender ist, dass Open-Sora2.0-Ergebnisse sogar Tencents Hunyuanvideo in VBench übertreffen und seine starke Stärke in der Videogenerationstechnologie demonstrieren. Diese Leistung beweist nicht nur die technologischen Vorteile von Open-Sora2.0, sondern setzt auch einen neuen Benchmark für die Open-Source-Videogenerierungstechnologie.
In der Überprüfung der Benutzerpräferenz verfügt Open-SORA2.0 über mindestens zwei Indikatoren, die das Open-Source-SOTA-Modell hunyuanvideo und den Geschäftsmodelllaufweg Gen-3alpha in den drei wichtigsten Dimensionen der visuellen Leistung, der Textkonsistenz und der Aktionsleistung übertreffen. Diese Leistung konsolidiert die führende Position von Open-Sora2.0 im Bereich Videogenerierung.

Der Grund, warum Open-SORA2.0 eine so hohe Leistung zu so niedrigen Kosten erzielen kann, ist eine Reihe von technologischen Innovationen und Optimierungsstrategien. Erstens setzt Open-Sora2.0 die Designidee von Open-Sora1.2 fort, nimmt 3D-Autocoder- und Flow-Matching-Trainingsrahmen an und führt einen 3D-Aufmerksamkeitsmechanismus ein, um die Qualität der Videoerzeugung weiter zu verbessern.
Um die ultimative Kostenoptimierung zu verfolgen, beginnt Open-SORA2.0 mit mehreren Aspekten: Striktes Daten-Screening sorgt dafür, dass ein Training mit geringer Auflösung von hoher Qualität der Schulungsdaten in Anspruch genommen wird, um Bewegungsinformationen effizient zu erlernen. Priorität wird dem Training von Videoaufgaben für das Training von Grafikaufgaben zur Beschleunigung der Modellkonvergenz und der Einführung einer effizienten Parallelungsschema, das Kombinieren von Colossalai-Ressourcen und das Kombinieren von Colossalai-Ressourcen erteilt.
Es wird geschätzt, dass die Kosten für eine einzelne Schulung von mehr als 10B Open-Source-Videomodellen auf dem Markt häufig Millionen von Dollar betragen, während Open-Sora2.0 diese Kosten um das 5-10-fache verringert. Dieser Durchbruch senkt nicht nur den Schwellenwert für die hochwertige Videogenerierung, sondern bietet auch mehr Entwicklern die Möglichkeit, an der Forschung und Entwicklung der Videogenerierungstechnologie teilzunehmen.
Noch lobenswert ist, dass Open-SORA2.0 nicht nur Open-Source-Modellcode und Gewichte, sondern auch Open-Source-Schulungscode mit Vollprozess, was zweifellos die Entwicklung des gesamten Open-Source-Ökosystems fördern wird. Die Zahl der akademischen Papierzitate von Open-Sora2.0 hat innerhalb eines halben Jahres fast 100 Zitate erhalten, was im globalen Open-Source-Einflussranking an erster Stelle steht und zu einem der einflussreichsten Open-Source-Videogenerierungsprojekte der Welt wird.
Das Open-SORA2.0-Team untersucht auch aktiv die Anwendung des Videokodierers mit hoher Kompressionsquote, um die Inferenzkosten signifikant zu senken. Sie trainierten einen Video-Autocoder mit hohem Komprimierungsverhältnis (4 × 32 × 32), um die Inferenzzeit für die Erzeugung von 768px- und 5-Sekunden-Videos in einer einzelnen Karte von fast 30 Minuten bis innerhalb von 3 Minuten zu verkürzen, und die Geschwindigkeit hat sich um das 10-fache erhöht. Diese Innovation bedeutet, dass wir in Zukunft schneller Videoinhalte erzeugen können.
Das Open-Source-Videogenerierungsmodell Open-SORA2.0 wurde von Luchen-Technologie mit kostengünstigen, leistungsstarken und umfassenden Open-Source-Eigenschaften auf den Markt gebracht. Die Entstehung hat nicht nur die Lücke mit den obersten Modellen mit geschlossener Quelle eingehalten, sondern auch die Schwelle für die hochwertige Videogenerierung gesenkt, wodurch mehr Entwickler teilnehmen und gemeinsam die Entwicklung der Videogenerierungstechnologie fördern können.
Github Open Source Repository: https://github.com/hpcaitech/open-sora
Technischer Bericht: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf