Kürzlich kündigte HPC-AI Tech den Start von Open-SORA 2.0 an, einem bahnbrechenden Video-KI-System, mit dem nur etwa ein Zehntel der typischen Trainingskosten eine Qualitätsqualität erzielen kann. Dieser Fortschritt markiert eine mögliche Paradigmenverschiebung im ressourcenintensiven Video-KI-Feld, das mit den Effizienzgewinnen in Sprachmodellen vergleichbar ist.
Während vorhandene hochwertige Videogenerierungssysteme wie Movie Gen und Step-Video-T2V möglicherweise Millionen von Dollar im Training erfordern, beträgt die Schulungsausgaben von Open-Sora2.0 nur etwa 200.000 US-Dollar. Trotz der erheblichen Kostenreduzierung hat Tests gezeigt, dass seine Produktionsqualität mit etablierten kommerziellen Systemen wie der Runway Gen-3Alpha und Hunyuanvideo vergleichbar ist. Das System verwendet 224 NVIDIA H200GPUs für das Training.
Tipp: "Zwei Frauen sitzen auf dem Beige-Sofa, der Raum ist warm und komfortabel, mit Ziegelmauern im Hintergrund. Sie reden glücklich, lächeln und heben Brillen, um Rotwein im intimen Schuss mit mittlerer Szene zu feiern." | Video: HPC-AI Tech
Open-SORA2.0 erreicht seine Effizienz durch einen neuartigen dreistufigen Trainingsprozess, beginnend mit einem Video mit geringer Auflösung und verfeinert sich allmählich zu höheren Auflösungen. Integrierte vorgebildete Bildmodelle wie Fluss optimieren die Ressourcennutzung weiter. Im Kern befindet sich das Video-DC-AE-Autoencoder, das im Vergleich zu herkömmlichen Methoden hervorragende Kompressionsraten bietet. Diese Innovation führt zu einer bemerkenswerten 5,2 -fach schnelleren Trainingsgeschwindigkeit und über Tenx schnellerer Geschwindigkeit der Videogenerierung. Während höhere Komprimierungsraten zu einer leichten Verringerung der Ausgangsdetails führen, beschleunigt sich der Videoerstellungsprozess erheblich.
Tipp: "Eine Tomaten surft eine Scheibe Salat, den Wasserfall der Weidesauce, übertriebene Surfen und glatte Welleneffekte unterstreichen den Spaß der 3D -Animation." | Video: HPC-AI Tech
Dieses Open -Source -System kann Videos aus Textbeschreibungen und einzelnen Bildern generieren und ermöglicht es Benutzern, die Bewegungsintensität in den generierten Clips über die Bewegungsbewertungsfunktion zu steuern. Beispiele von HPC-AI Tech zeigen eine Vielzahl von Szenarien, einschließlich realistischer Dialog und skurrilen Animationen.
Open-SORA 2.0 hat jedoch derzeit Einschränkungen bei der Auflösung (768 x 768 Pixel) und maximale Videodauer (5 Sekunden oder 128 Frames), was den Fähigkeiten führender Modelle wie OpenAIs Sora unterlegen ist. Dennoch nähert sich die Leistung in Schlüsselbereichen wie visuelle Qualität, die Genauigkeit der Hinweise und die Bewegungsverarbeitung den kommerziellen Standards. Es ist erwähnenswert, dass der VBench-Score von Open-Sora2.0 jetzt nur 0,69% hinter Openai's Sora liegt, eine signifikante Verbesserung gegenüber den 4,52% der vorherigen Version.
Tipp: "Ein Haufen anthropomorpher Pilze veranstaltet eine Disco -Party in einem dunklen magischen Wald, begleitet von blinkenden Neonlichtern und übertriebenen Tanzschritten, ihren glatten Texturen und reflektierenden Oberflächen betonen das lustige 3D -Erscheinungsbild." | Video: HPC-AI Tech
Die kostengünstige Strategie von Open-SORA2.0 gibt den „Deepseek-Moment“ im Sprachmodell wider, als verbesserte Trainingsmethoden Open Source-Systeme ermöglichten, die Leistung der kommerziellen Qualität zu einer viel geringeren Kosten als kommerzielle Systeme zu erzielen. Diese Entwicklung könnte den Druck auf die Preise im Video -KI -Feld nach unten unter Druck setzen, das derzeit aufgrund des hohen Rechenbedarfs um Sekunden berechnet wird.

Schulungskostenvergleich: Open-SORA2.0 kostet etwa 200.000 US-Dollar, während der Filmgengen 2,5 Millionen US-Dollar kostet und Stiefvideo-T2V 1 Million US-Dollar kostet. | Foto: HPC-AI Tech
Trotz dieses Fortschritts ist die Leistungslücke zwischen Open Source und Commercial Video AI immer noch größer als die von Sprachmodellen, wodurch die anhaltenden technischen Herausforderungen vor Ort hervorgehoben werden. Open-SORA2.0 ist jetzt als Open-Source-Projekt auf GitHub erhältlich.