Avez-vous toujours envie de belles scènes de photos bidimensionnelles et aspiré à découvrir ces charmantes photos de première main? Maintenant, ce rêve devrait devenir une réalité! Sur CVPR2025, une étude majeure appelée MIDI (diffusion multi-instance pour une image unique à la génération de scène 3D, une image unique de diffusion multi-instance à la génération de scène 3D) a émergé. Cette technologie est comme un magicien qualifié. Avec juste une image 2D normale, vous pouvez créer une scène 3D à 360 degrés réaliste pour vous.
Imaginez que vous avez pris un coin d'un café avec du soleil brillant, avec des tables et des chaises exquises, des tasses à café parfumées et des arbres balançant à l'extérieur de la fenêtre. Dans le passé, ce n'était qu'une image plate statique. Mais avec le MIDI, il vous suffit de "nourrir" cette photo, et ce qui se passe ensuite peut être appelé "Turning Stones en or".
MIDI fonctionne assez intelligemment. Premièrement, il segmente intelligemment l'image unique d'entrée, tout comme un artiste expérimenté, capable d'identifier avec précision divers éléments indépendants de la scène, tels que des tables, des chaises, des tasses à café, etc. Ces parties d'image "désassemblées", ainsi que les informations globales de l'environnement de la scène, deviendront une base importante pour MIDI pour construire des scènes 3D.
Contrairement à certaines autres méthodes de génération d'objets 3D un par un, puis de les combiner, MIDI adopte une manière plus efficace et intelligente de diffusion synchrone multi-instance. Cela signifie qu'il est capable de modéliser la 3D plusieurs objets dans la scène en même temps, ce qui est comme un orchestre jouant des instruments différents en même temps, se convertissant finalement en un mouvement harmonieux.
Ce qui est encore plus étonnant, c'est que MIDI présente également un nouveau mécanisme d'attention multi-instance. Ce mécanisme est comme un "dialogue" entre différents objets de la scène. Il peut capturer efficacement l'interaction et la relation spatiale entre les objets, garantissant que la scène 3D générée contient non seulement des objets indépendants, mais plus important encore, le placement et l'influence mutuelle entre eux sont logiques et intégrés. Cette capacité à considérer directement la relation entre les objets pendant le processus de génération évite les étapes de post-traitement complexes dans les méthodes traditionnelles et améliore considérablement l'efficacité et le sens de la réalité.
MIDI peut générer directement des instances 3D composées à partir d'une seule image sans traitement à plusieurs étages complexe. On dit que l'ensemble du processus de traitement ne prend que 40 secondes au plus rapide, ce qui est certainement une bénédiction pour les utilisateurs qui poursuivent l'efficacité. En introduisant une couche d'attention multi-instance et une couche d'attention croisée, le MIDI peut comprendre pleinement les informations de contexte de la scène globale et l'intégrer dans le processus de génération de chaque objet 3D indépendant, garantissant ainsi la coordination globale de la scène et la richesse des détails.
Au cours du processus de formation, MIDI utilise intelligemment des données limitées au niveau de la scène pour superviser l'interaction entre les instances 3D, et intègre une grande quantité de données d'objets uniques pour la régularisation, ce qui lui permet de générer avec précision des modèles 3D conformes à la logique de scène tout en conservant de bonnes capacités de généralisation. Il convient de mentionner que les détails de texture de la scène 3D générés par MIDI ne sont pas inférieurs, grâce à l'application de technologies telles que MV-Adapter, ce qui rend la scène 3D finale plus réaliste et crédible.
On peut prévoir que l'émergence de la technologie MIDI déclenchera une nouvelle vague dans de nombreux domaines. Qu'il s'agisse de développement de jeux, de réalité virtuelle, de design d'intérieur ou de protection numérique des reliques culturelles, le MIDI fournira une nouvelle méthode de production de contenu 3D efficace et pratique. Imaginez qu'à l'avenir, nous devrons peut-être prendre une photo pour construire rapidement un environnement 3D interactif pour réaliser un véritable "voyage dans le temps en un clic".
Entrée du projet: https://huangzh.github.io/midi-page/