Jiji Technology a récemment publié le framework DriveDreamer4D, qui vise à utiliser le modèle mondial pour améliorer l'effet de reconstruction des scènes de conduite 4D. Les méthodes traditionnelles telles que NeRF et 3DGS s'appuient sur une grande quantité de données d'entraînement et fonctionnent mal face à des conditions routières complexes. DriveDreamer4D génère des données d'entraînement plus diversifiées en introduisant un modèle mondial et un nouveau module de génération de trajectoire (NTGM), qui améliorent considérablement la précision et la robustesse de la reconstruction de scènes 4D, apportant ainsi de nouvelles avancées dans la recherche et le développement de la conduite autonome.
Récemment, Jiji Technology a proposé un nouveau framework appelé DriveDreamer4D, qui vise à utiliser les connaissances préalables du modèle mondial pour améliorer l'effet de reconstruction des scènes de conduite 4D.
Les méthodes traditionnelles de reconstruction de scènes 4D s'appuient principalement sur les deux grandes écoles NeRF et 3DGS. NeRF est comme un super peintre qui peut utiliser des réseaux de neurones pour restituer un tas de photos dans un modèle 3D. 3DGS utilise un ensemble de fonctions gaussiennes tridimensionnelles pour simuler divers objets de la scène.

Mais les deux méthodes ont une faiblesse fatale : elles s’appuient trop sur les données d’entraînement. Par exemple, si vous n’avez vu que des voitures rouler en ligne droite et qu’elles dérivent soudainement dans un virage, vous serez confus ! Par conséquent, ils ont tendance à se renverser lorsqu’ils sont confrontés à des conditions routières complexes, telles que des changements de voie, des accélérations et des décélérations.
Afin de résoudre ce problème, Jiji Technology a lancé cette fois un grand tueur : DriveDreamer4D. Pour faire simple, il s'agit d'un plug-in d'IA pour la reconstruction de scènes 4D - un modèle mondial.

Vous pouvez comprendre le modèle mondial comme un cerveau IA capable de prédire ce qui pourrait arriver dans le futur sur la base des données existantes. DriveDreamer4D utilise le modèle mondial pour générer de nouvelles données vidéo en perspective dans diverses conditions routières complexes, ce qui équivaut à alimenter le modèle de reconstruction de scène 4D avec des données d'entraînement de « supplément cérébral », afin qu'il soit bien informé et ne se retourne plus.
Ce qui est encore plus génial, c'est que DriveDreamer4D a également spécialement conçu un nouveau module de génération de trajectoire (NTGM). Cette chose peut générer automatiquement diverses nouvelles trajectoires conformes aux règles de circulation, telles que les changements de voie, les accélérations, les décélérations, etc., puis utiliser le modèle mondial pour générer des vidéos de la perspective correspondante, ce qui équivaut à embaucher un « partenaire d'épargne » pour le modèle de reconstruction de scène 4D, lui permettant de gérer facilement diverses conditions routières complexes.
Les résultats expérimentaux prouvent également la force de DriveDreamer4D. Lorsqu'il s'agit de conditions routières complexes, son effet de reconstruction est nettement meilleur que celui des méthodes traditionnelles, la fidélité des images générées est plus élevée et les positions des véhicules et des lignes de voie peuvent être restaurées avec précision.
Dans l'ensemble, l'émergence de DriveDreamer4D revient à larguer une bombe nucléaire dans le domaine de la reconstruction de scènes 4D, faisant directement exploser le plafond technique. Grâce à cela, la recherche, le développement et les tests sur la conduite autonome seront plus efficaces, plus sûrs et plus fiables.
Bien entendu, DriveDreamer4D est encore au stade de la recherche et il reste encore de nombreux domaines à améliorer dans le futur. Mais je crois qu’à mesure que la technologie continue de se développer, elle deviendra de plus en plus puissante et deviendra à terme un élément indispensable dans le domaine de la conduite autonome.
Adresse papier : https://arxiv.org/pdf/2410.13571
Page d'accueil du projet : https://drivedreamer4d.github.io/
Adresse du code : https://github.com/GigaAI-research/DriveDreamer4D
L'éditeur de Downcodes estime que l'émergence de DriveDreamer4D marque une nouvelle étape dans la technologie de reconstruction de scènes 4D. Ses perspectives d'application dans des domaines tels que la conduite autonome sont vastes et méritent une attention et une anticipation continues. À l’avenir, à mesure que la technologie continuera à évoluer, je pense que DriveDreamer4D jouera un rôle plus important.