Dans le domaine de la génération de vidéos, Openai Sora a été considéré comme une référence de l'industrie pour ses coûts de formation élevés et ses excellentes performances. Cependant, Luchen Technology a récemment annoncé l'open source de son modèle de génération de vidéos Open-SORA2.0, ce qui a sans aucun doute provoqué une énorme sensation dans l'industrie. Open-SORA2.0 est rapidement devenu le nouveau centre de la technologie de génération de vidéos avec son coût de formation et ses performances extrêmement faibles près des modèles top.
Le coût de formation de l'Open-SORA2.0 n'est que 200 000 $ US, ce qui équivaut à l'investissement de 224 GPU, mais il a réussi à former un modèle de génération de vidéos de niveau commercial avec 11 milliards de paramètres. Cette réalisation démontre non seulement les percées technologiques de Luchen Technology, mais apporte également de nouvelles possibilités dans le domaine de la génération de vidéos.

Bien que l'Open-SORA2.0 coûte beaucoup plus bas que Openai Sora, ses performances ne sont pas inférieures à cela. Open-SORA2.0 a effectué de manière impressionnante dans les critiques faisant autorité VBench et les tests de préférence des utilisateurs, et peut même rivaliser avec des modèles de source fermée qui coûtent des millions de dollars pour s'entraîner sur plusieurs mesures clés. En particulier dans l'évaluation de VBench, l'écart de performance entre l'Open-SORA2.0 et l'Openai Sora a considérablement réduit de 4,52% à seulement 0,69%, ce qui a presque réussi une frappe complète des performances.
Ce qui est encore plus excitant, c'est que les scores Open-Sora2.0 dépassent même Hunyuanvideo de Tencent à Vbench, démontrant sa forte force dans la technologie de génération de vidéos. Cette réalisation prouve non seulement les avantages technologiques de l'Open-SORA2.0, mais établit également une nouvelle référence pour la technologie de génération de vidéos open source.
Dans l'examen des préférences des utilisateurs, Open-SORA2.0 propose au moins deux indicateurs qui dépassent le modèle SOTA Open Source Hunyuanvideo et le modèle Business Model Runway Gen-3alpha dans les trois dimensions clés des performances visuelles, de la cohérence du texte et des performances d'action. Cette réalisation consolide davantage la position principale de l'Open-SORA2.0 dans le champ de génération de vidéos.

La raison pour laquelle l'Open-SORA2.0 peut atteindre des performances aussi élevées à un coût aussi faible est due à une série d'innovations technologiques et de stratégies d'optimisation. Tout d'abord, Open-SORA2.0 poursuit l'idée de conception de l'Open-SORA1.2, adopte le cadre de formation AutoEncoders 3D et Match, et introduit un mécanisme complet d'attention 3D pour améliorer encore la qualité de la génération de vidéos.
Afin de poursuivre l'optimisation des coûts ultime, Open-SORA2.0 part à partir de plusieurs aspects: un dépistage strict des données garantit une entrée de données de formation de haute qualité, la priorité est donnée à une formation à basse résolution pour apprendre efficacement les informations de mouvement, la priorité est donnée à la formation des tâches vidéo du graphique pour accélérer la convergence du modèle et adopter une formation en parallèle efficace, combinant des ressources colossales et système systématique du système, un schéma de sous-modes de maîtrise du système.
On estime que le coût d'une formation unique de plus de 10b modèles vidéo open source sur le marché est souvent des millions de dollars, tandis que l'Open-SORA2.0 réduit ce coût de 5 à 10 fois. Cette percée réduit non seulement le seuil de génération de vidéos de haute qualité, mais donne également à plus de développeurs la possibilité de participer à la recherche et au développement de la technologie de génération de vidéos.
Ce qui est encore plus louable, c'est que Open-SORA2.0 non seulement le code et les poids de modèle open source, mais également le code de formation complet du processus complet, qui favorisera sans aucun doute considérablement le développement de l'ensemble de l'écosystème open source. Le nombre de citations de papier académique d'Open-SORA2.0 a reçu près de 100 citations d'ici un demi-année, se classant en premier dans le classement mondial de l'influence de l'open source, devenant l'un des projets de génération de vidéos open source les plus influents au monde.
L'équipe Open-SORA2.0 explore également activement l'application d'un autoencoder vidéo à un ratio à haute compression pour réduire considérablement les coûts d'inférence. Ils ont entraîné un autoencoder vidéo avec un rapport de compression élevé (4 × 32 × 32) pour raccourcir le temps d'inférence de générer des vidéos de 768px et 5 secondes dans une seule carte de près de 30 minutes à 3 minutes, et la vitesse a augmenté de 10 fois. Cette innovation signifie que nous pouvons générer un contenu vidéo de haute qualité plus rapidement à l'avenir.
Le modèle de génération de vidéos open source Open-Sora2.0 lancé par Luchen Technology, avec ses caractéristiques open source à faible coût, hautes performances et complètes, apporte sans aucun doute une forte tendance de "parité" au domaine de la génération de vidéos. Son émergence a non seulement réduit l'écart avec les meilleurs modèles de source fermée, mais a également abaissé le seuil de génération de vidéos de haute qualité, permettant à plus de développeurs de participer et de promouvoir conjointement le développement de la technologie de génération de vidéos.
Référentiel open source GitHub: https://github.com/hpcaitech/open-sora
Rapport technique: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf