Este artigo apresenta um modelo de reconstrução gaussiana 4D em grande escala chamado L4GM, que é capaz de gerar com eficiência objetos animados de alta qualidade a partir de vídeos de visualização única. Ele é treinado em um grande conjunto de dados contendo vídeos de visualização múltipla e foi projetado de forma inovadora para atingir uma velocidade de processamento rápida de apenas um segundo para transmissão unidirecional. A vantagem do L4GM é que ele pode reconstruir vídeos longos e vídeos com alta taxa de quadros e suporta interpolação 4D para aumentar significativamente a taxa de quadros do vídeo. Além disso, o modelo também apresenta boa capacidade de generalização e pode alcançar resultados satisfatórios em vídeos de cenas reais.
Recentemente, a equipe de pesquisa propôs um modelo de reconstrução gaussiana 4D em grande escala chamado L4GM, que pode gerar objetos animados a partir de entradas de vídeo de visualização única e alcançar resultados impressionantes.
A chave para este modelo é o conjunto de dados inovador e o design simplificado, que torna possível concluir a transferência unilateral em apenas um segundo, garantindo ao mesmo tempo a alta qualidade dos objetos animados de saída.
Composição de vídeo para 4D
L4GM pode gerar objetos 4D a partir de vídeos em poucos segundos. No exemplo de vídeo a seguir, você pode ver o objeto alvo no vídeo original e o modelo de reconstrução gaussiana 4D gerado correspondente.
Reconstrua vídeos longos, com FPS alto e flexíveis
E reconstrua um vídeo de 30fps com 10 segundos de duração. Como exemplo no vídeo a seguir,
Interpolação 4D
A equipe também treinou um modelo de interpolação 4D para aumentar a taxa de quadros em 3 vezes. Como exemplo no vídeo a seguir,
Esquerda: antes da interpolação. À direita: após interpolação
Construir conjunto de dados de vídeo em perspectiva
A equipe de pesquisa construiu um conjunto de dados contendo vídeos de visualização múltipla contendo objetos animados renderizados e cuidadosamente elaborados do Objaverse. Este conjunto de dados exibe 44.000 objetos diversos, cobrindo 110.000 animações de 48 pontos de vista, resultando em um total de 120 milhões de vídeos com um total de 300 milhões de quadros. Com base neste conjunto de dados, o L4GM é construído diretamente no já pré-treinado modelo de reconstrução 3D em grande escala LGM, que produz elipsóides gaussianos 3D a partir de entrada de imagem multivisualização.
O L4GM alcança suavidade temporal gerando uma representação gaussiana 3D de cada quadro em quadros de vídeo amostrados em fps baixos e, em seguida, aumentando a resolução da representação para fps mais altos.
Para ajudar o modelo a aprender a consistência temporal, a equipe de pesquisa adicionou uma camada de autoatenção temporal ao LGM básico e usou a perda de renderização de múltiplas visualizações em cada etapa de tempo para treinar o modelo. Ao treinar um modelo de interpolação, esta representação é ampliada para uma taxa de quadros mais alta, resultando em uma representação gaussiana 3D intermediária.
A equipe de pesquisa demonstrou a boa capacidade de generalização do L4GM em vídeos em estado selvagem após o treinamento em dados sintéticos, produzindo objetos 3D animados de alta qualidade. O modelo aceita vídeo de visualização única e imagens de visualização múltipla de etapa única como entrada e gera um conjunto de distribuições de probabilidade gaussianas 4D.
quadro técnico

O modelo toma como entrada um vídeo de visualização única e uma imagem de visualização múltipla de passo único e gera um conjunto de gaussianas 4D. Ele adota a arquitetura U-Net, usa autoatenção de visão cruzada para obter consistência de visualização e usa autoatenção de tempo para espaço para alcançar consistência temporal.

L4GM permite a reconstrução autoregressiva, usando uma renderização multivisualização da última Gaussiana como entrada para a próxima reconstrução. Existe um quadro de sobreposição entre duas reconstruções consecutivas. Além disso, a equipe de pesquisa também treinou um modelo de interpolação 4D. O modelo de interpolação recebe o vídeo multivisualização interpolado renderizado a partir dos resultados da reconstrução e gera o Gaussiano interpolado.
Os cenários aplicáveis ao L4GM incluem:
Geração de conteúdo de vídeo: L4GM pode gerar modelos 4D de objetos animados a partir de entrada de vídeo de visualização única, que tem amplas aplicações na produção de efeitos especiais de vídeo, desenvolvimento de jogos e outros campos. Por exemplo, pode ser usado para gerar animações de efeitos especiais, construir cenas virtuais, etc.
Reconstrução e reparo de vídeo: o L4GM pode reconstruir vídeos de longo prazo com alta taxa de quadros e pode ser usado para reparo e restauração de vídeo para melhorar a qualidade e a clareza do vídeo. Isso pode ser útil na restauração de filmes, compactação de vídeo e processamento de vídeo.
Interpolação de vídeo: Por meio do modelo de interpolação 4D treinado, o L4GM pode aumentar a taxa de quadros do vídeo e torná-lo mais suave. Isso tem aplicações potenciais em edição de vídeo, produção de efeitos de câmera lenta/rápida, etc.
Geração de ativos 3D: L4GM pode gerar ativos 3D animados de alta qualidade, o que é muito útil para geração de modelos 3D em aplicativos de realidade virtual (VR), realidade aumentada (AR) e desenvolvimento de jogos.
Entrada do produto: https://top.aibase.com/tool/l4gm
Em suma, o modelo L4GM fez progressos significativos no campo da reconstrução gaussiana 4D, e a sua elevada eficiência, resultados de alta qualidade e amplas perspectivas de aplicação tornam-no um resultado de investigação de grande importância. O surgimento deste modelo promoverá enormemente o progresso em áreas como processamento de vídeo e geração de ativos 3D.