A Jiji Technology lançou recentemente a estrutura DriveDreamer4D, que visa usar o modelo mundial para melhorar o efeito de reconstrução da cena de direção 4D. Métodos tradicionais como NeRF e 3DGS dependem de uma grande quantidade de dados de treinamento e apresentam desempenho insatisfatório ao lidar com condições de estradas complexas. DriveDreamer4D gera dados de treinamento mais diversificados ao introduzir um modelo mundial e um novo módulo de geração de trajetória (NTGM), que melhora significativamente a precisão e robustez da reconstrução de cena 4D, trazendo novos avanços para pesquisa e desenvolvimento de direção autônoma.
Recentemente, a Jiji Technology propôs uma nova estrutura chamada DriveDreamer4D, que visa usar o conhecimento prévio do modelo mundial para melhorar o efeito de reconstrução de cenas de direção 4D.
Os métodos tradicionais de reconstrução de cena 4D dependem principalmente das duas principais escolas de NeRF e 3DGS. NeRF é como um superpintor que pode usar redes neurais para transformar um monte de fotos em um modelo 3D. 3DGS usa várias funções gaussianas tridimensionais para simular vários objetos na cena.

Mas ambos os métodos têm uma fraqueza fatal: eles dependem demais de dados de treinamento. Por exemplo, se você apenas viu carros dirigindo em linha reta e de repente eles derraparam em uma curva, você ficará confuso. Portanto, eles são propensos a capotar quando enfrentam condições de estrada complexas, como mudança de faixa, aceleração e desaceleração.
Para resolver este problema, a Jiji Technology lançou um grande assassino desta vez: o DriveDreamer4D. Simplificando, isso é um plug-in de IA para reconstrução de cena 4D – um modelo mundial.

Você pode entender o modelo mundial como um cérebro de IA que pode prever o que pode acontecer no futuro com base nos dados existentes. DriveDreamer4D usa o modelo mundial para gerar novos dados de vídeo em perspectiva sob várias condições complexas de estrada, o que equivale a alimentar o modelo de reconstrução de cena 4D com dados de treinamento de "suplemento cerebral", para que fique bem informado e não role mais.
O que é ainda mais impressionante é que o DriveDreamer4D também projetou especialmente um novo módulo de geração de trajetória (NTGM). Essa coisa pode gerar automaticamente diversas novas trajetórias que cumpram as regras de trânsito, como mudanças de faixa, aceleração, desaceleração, etc., e depois usar o modelo mundial para gerar vídeos da perspectiva correspondente, o que equivale a contratar um “parceiro poupador” para o modelo de reconstrução de cena 4D, permitindo lidar com várias condições complexas da estrada com facilidade.
Os resultados experimentais também comprovam a força do DriveDreamer4D. Ao lidar com condições de estradas complexas, o seu efeito de reconstrução é significativamente melhor do que os métodos tradicionais, a fidelidade das imagens geradas é maior e as posições dos veículos e das linhas das faixas podem ser restauradas com precisão.
Em suma, o surgimento do DriveDreamer4D é como lançar uma bomba nuclear no campo da reconstrução de cenas 4D, explodindo diretamente o teto técnico. Com ele, a investigação, o desenvolvimento e os testes de condução autónoma serão mais eficientes, mais seguros e mais fiáveis.
É claro que o DriveDreamer4D ainda está em fase de pesquisa e ainda há muitas áreas para melhorias no futuro. Mas acredito que à medida que a tecnologia continua a desenvolver-se, tornar-se-á cada vez mais poderosa e, eventualmente, tornar-se-á uma parte indispensável do campo da condução autónoma.
Endereço do artigo: https://arxiv.org/pdf/2410.13571
Página inicial do projeto: https://drivedreamer4d.github.io/
Endereço do código: https://github.com/GigaAI-research/DriveDreamer4D
O editor do Downcodes acredita que o surgimento do DriveDreamer4D marca um novo marco na tecnologia de reconstrução de cenas 4D. Suas perspectivas de aplicação em áreas como a direção autônoma são amplas e dignas de atenção e antecipação contínuas. No futuro, à medida que a tecnologia continuar a amadurecer, acredito que o DriveDreamer4D desempenhará um papel mais importante.