Meta, en partenariat avec l'Université des sciences et technologies King Abdullah (KAUST) en Arabie Saoudite, a lancé une nouvelle gamme de modèles de diffusion vidéo appelée MarDini. Ce modèle peut créer facilement et efficacement des vidéos de haute qualité et mettre en œuvre plusieurs fonctions telles que le remplissage d'images vidéo, la conversion d'images en vidéo et l'expansion vidéo, ce qui simplifie grandement le processus de création vidéo. L'éditeur de Downcodes expliquera en détail les caractéristiques et les avantages du modèle MarDini, ainsi que son apport révolutionnaire dans le domaine du traitement vidéo.
Récemment, Meta s’est associée à l’Université des sciences et technologies du roi Abdallah d’Arabie saoudite (KAUST) pour lancer une nouvelle gamme de modèles de diffusion vidéo – MarDini. Ce modèle rend la création de vidéos de haute qualité plus facile et plus flexible, capable d'accomplir des tâches telles que remplir les images manquantes dans une vidéo, convertir des images uniques en scènes dynamiques et même étendre de courts clips en ajoutant une partie d'images continues naturelles.

MarDini a également la capacité d'étendre la vidéo en conditionnant la vidéo existante de n'importe quelle longueur. Nous ajoutons 12 nouvelles images à chaque séquence en générant une extension de 2 secondes à partir d'une vidéo de référence de 5 images.
MarDini implémente l'interpolation vidéo en générant des images intermédiaires en utilisant la première et la dernière image comme signaux de conditionnement. Lorsque ces cadres limites sont les mêmes, MarDini peut créer des vidéos en boucle transparente.
Le fonctionnement de MarDini est très intéressant. Il utilise une technologie de génération vidéo avancée et efficace et se compose principalement de deux parties : un modèle de planification et un modèle de génération. Premièrement, le modèle de planification utilise la méthode autorégressive masquée (MAR) pour interpréter les trames d'entrée basse résolution et générer des signaux de guidage pour les trames qui doivent être créées. Un modèle génératif léger utilise ensuite un processus de diffusion pour générer des images détaillées haute résolution, garantissant ainsi que la vidéo finale est fluide et visuellement agréable.
Contrairement à de nombreux modèles vidéo qui nécessitent des modèles d'images pré-entraînés complexes, MarDini prétend être formé à partir de zéro à l'aide de données vidéo non étiquetées. En effet, il adopte une stratégie de formation progressive, qui permet au modèle de mieux faire face aux différentes configurations de cadres en ajustant de manière flexible la méthode de masquage des cadres pendant le processus de formation.
Une caractéristique distinctive de MarDini est sa flexibilité et ses performances. Il est non seulement puissant mais aussi efficace, adapté aux tâches à plus grande échelle. Ce modèle peut gérer des tâches telles que l'interpolation vidéo, la génération d'image en vidéo et l'expansion vidéo, qu'il s'agisse de lisser des clips vidéo existants ou de créer des séquences complètes à partir de zéro.
En termes de performances, MarDini établit de nouvelles références, produisant des vidéos de haute qualité en moins d'étapes, ce qui la rend plus rentable et plus rapide que des alternatives plus complexes. Le document de recherche officiel indique : « Notre étude montre que notre stratégie de modélisation fonctionne de manière compétitive sur une variété de références d'interpolation et d'animation tout en réduisant les besoins de calcul à des échelles de paramètres comparables. »
Entrée du projet : https://mardini-vidgen.github.io/
Dans l'ensemble, le modèle MarDini apporte de nouvelles possibilités dans le domaine de la création vidéo grâce à ses performances efficaces et ses scénarios d'application flexibles. Sa technologie innovante et ses performances supérieures en font la technologie leader dans le domaine de la génération et du traitement vidéo à l'avenir. Attendez-vous à ce que MarDini vous réserve d'autres surprises à l'avenir !