Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜
À l'ère numérique d'aujourd'hui, les courtes vidéos générées par l'IA sont devenues monnaie courante, mais ces vidéos manquent souvent de profondeur et de cohérence et sont difficiles à vraiment impressionner le public. Pour résoudre ce problème, la technologie de réglage du contexte long (LCT) a vu le jour. Cette technologie donne aux modèles de la génération de vidéos AI la possibilité de réaliser des vidéos narratives multiples, ce qui leur permet de basculer librement entre différents plans comme des films et des séries télévisées pour créer une scène d'histoire plus cohérente et fascinante.

Dans le passé, les meilleurs modèles de génération de vidéos AI, tels que Sora, Kling et Gen3, ont pu générer des vidéos à objectif unique réalistes jusqu'à une minute. Cependant, ces modèles ont encore d'énormes défis dans la génération de vidéos narratives multi-lentilles. Une scène de film est souvent composée de plusieurs vidéos à un seul coup qui capturent le même événement cohérent, ce qui nécessite que le modèle maintienne un degré élevé de cohérence de l'apparence visuelle et de la dynamique temporelle.
Prenez la scène classique où Jack et Ruth se rencontrent sur le pont dans le film Titanic, qui contient quatre plans principaux: un gros plan de Jack regardant en arrière, une photo moyenne de Ruth Talking, un plan grand angle de Ruth marchant vers Jack, et un gros plan de Jack embrassant Ruth par derrière. Pour générer une telle scène, il est non seulement nécessaire d'assurer la cohérence des caractéristiques du caractère, de l'arrière-plan, de la lumière et des tons, mais aussi pour maintenir le rythme du mouvement du caractère et la douceur du mouvement de la caméra pour assurer la douceur du récit.
Pour combler le fossé entre la génération d'un objectif unique et le récit multi-lentille, les chercheurs ont proposé diverses approches, mais la plupart de ces méthodes ont des limites. Certaines méthodes reposent sur la saisie des éléments visuels clés pour forcer la cohérence visuelle à travers l'objectif, mais sont difficiles à contrôler des éléments plus abstraits tels que la lumière et les tons. D'autres méthodes forment un ensemble cohérent d'images clés, puis utilisent le modèle d'image à vidéo (I2V) pour synthétiser chaque objectif indépendamment, ce qui est difficile pour garantir la cohérence temporelle entre les lentilles, et les cadres clés clairsemés limitent également l'efficacité des conditions.
L'émergence de la technologie LCT est précisément pour résoudre ces problèmes. Il élargit la fenêtre de contexte du modèle de diffusion vidéo à objectif unique, ce qui lui permet d'apprendre la cohérence entre les prises de vue directement à partir de données vidéo au niveau de la scène. La conception innovante de base de LCT comprend l'expansion de mécanismes d'attention complètes, l'intégration de la position 3D entrelacée et les stratégies de bruit asynchrones. Ces conceptions permettent au modèle de "concentrer" toutes les informations visuelles et textuelles de toute la scène en même temps lors de la génération de vidéos, mieux comprendre et maintenir des dépendances transversales.
Les résultats expérimentaux montrent que le modèle à objectif unique ajusté en LCT fonctionne bien dans la génération de scènes multi-objectifs cohérentes et démontre de nouvelles capacités surprenantes. Par exemple, il peut être généré en combinaison sur la base d'une image d'identité de rôle et d'environnement donnée, même si le modèle n'a pas été spécialement formé pour de telles tâches auparavant. De plus, le modèle LCT prend également en charge l'expansion de la lentille autorégressive, qui peut être réalisée, qu'il s'agisse d'une extension continue à objectif unique ou d'une extension multi-lentille avec commutation de lentille. Cette fonctionnalité est particulièrement utile pour une longue création vidéo car elle décompose la génération de vidéos longue en plusieurs segments de scène, ce qui facilite les utilisateurs à apporter des modifications interactives.
En allant plus loin, les chercheurs ont également constaté qu'après le LCT, les modèles ayant une attention bidirectionnelle peuvent être encore affinés à l'attention caustique contextuelle. Ce mécanisme d'attention amélioré reste l'attention bidirectionnelle dans chaque objectif, mais entre les lentilles, les informations ne peuvent passer que des lentilles précédentes aux lentilles ultérieures. Ce flux d'informations unidirectionnel permet à KV-Cache (un mécanisme de mise en cache) d'être utilisé efficacement pendant la génération d'autorégression, réduisant ainsi considérablement les frais généraux de calcul.
Comme le montre la figure 1, la technologie LCT peut être directement appliquée à la production de courts métrages pour atteindre la génération de vidéos au niveau de la scène. Encore plus excitante, il engendre également une variété de capacités émergentes telles que les directeurs multi-lens interactifs, l'expansion unique et la génération combinée d'échantillons zéro, bien que le modèle n'ait jamais été formé pour ces tâches spécifiques. Comme le montre la figure 2, un exemple de données vidéo au niveau de la scène est affiché, qui contient des invites globales (décrivant le caractère, l'environnement et le résumé de l'histoire) et des descriptions d'événements spécifiques pour chaque photo.
En résumé, un ajustement de contexte long (LCT) ouvre un nouveau chemin pour la création de contenu visuel plus pratique en étendant la fenêtre de contexte du modèle de diffusion vidéo unique, ce qui lui permet d'apprendre la cohérence au niveau de la scène directement à partir des données. Cette technologie améliore non seulement la capacité narrative et la cohérence des vidéos générées par l'IA, mais fournit également de nouvelles idées pour la génération vidéo longue et interactive future et l'édition vidéo interactive. Nous avons des raisons de croire que la future création vidéo deviendra plus intelligente et créative en raison des progrès des technologies telles que LCT.
Adresse du projet: https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
Adresse papier: https://arxiv.org/pdf/2503.10589