Este artículo presenta un modelo de reconstrucción gaussiano 4D a gran escala llamado L4GM, que es capaz de generar de manera eficiente objetos animados de alta calidad a partir de videos de una sola vista. Está entrenado en un gran conjunto de datos que contiene videos de múltiples vistas y está diseñado de manera innovadora para lograr una velocidad de procesamiento rápida de solo un segundo para transmisión unidireccional. La ventaja de L4GM es que puede reconstruir videos largos y videos de alta velocidad de cuadros, y admite interpolación 4D para aumentar significativamente la velocidad de cuadros del video. Además, el modelo también muestra una buena capacidad de generalización y puede lograr resultados satisfactorios en vídeos de escenas reales.
Recientemente, el equipo de investigación propuso un modelo de reconstrucción gaussiano 4D a gran escala llamado L4GM, que puede generar objetos animados a partir de entradas de video de vista única y lograr resultados impresionantes.
La clave de este modelo es el conjunto de datos innovador y el diseño simplificado, que permite completar la transferencia unidireccional en solo un segundo, al tiempo que garantiza la alta calidad de los objetos animados de salida.
Vídeo a composición 4D
L4GM puede generar objetos 4D a partir de videos en unos pocos segundos. En el siguiente ejemplo de video, puede ver el objeto de destino en el video original y el modelo de reconstrucción gaussiano 4D generado correspondiente.
Reconstruya vídeos largos, con altos FPS y flexibles
Y reconstruya un video de 30 fps de 10 segundos de duración. Como ejemplo en el siguiente vídeo,
interpolación 4D
El equipo también entrenó un modelo de interpolación 4D para aumentar la velocidad de fotogramas 3 veces. Como ejemplo en el siguiente vídeo,
Izquierda: antes de la interpolación. Derecha: después de la interpolación
Crear un conjunto de datos de vídeo en perspectiva
El equipo de investigación creó un conjunto de datos que contiene videos de múltiples vistas que contienen objetos animados cuidadosamente elaborados y renderizados del Objaverse. Este conjunto de datos muestra 44.000 objetos diversos que cubren 110.000 animaciones desde 48 puntos de vista, lo que da como resultado un total de 120 millones de vídeos con un total de 300 millones de fotogramas. Basado en este conjunto de datos, L4GM se construye directamente sobre el modelo de reconstrucción 3D a gran escala LGM ya entrenado previamente, que genera elipsoides gaussianos 3D a partir de una entrada de imagen de vista múltiple.
L4GM logra suavidad temporal al generar una representación de bienvenida gaussiana 3D de cada cuadro en cuadros de video muestreados a fps bajos y luego aumentando el muestreo de la representación a fps más altos.
Para ayudar al modelo a aprender coherencia temporal, el equipo de investigación agregó una capa de autoatención temporal al LGM básico y utilizó pérdida de representación de múltiples vistas en cada paso de tiempo para entrenar el modelo. Al entrenar un modelo de interpolación, esta representación se muestra a una velocidad de fotogramas más alta, lo que da como resultado una representación gaussiana 3D intermedia.
El equipo de investigación demostró la buena capacidad de generalización de L4GM en vídeos en la naturaleza después de entrenar con datos sintéticos, produciendo objetos animados en 3D de alta calidad. El modelo acepta video de vista única e imágenes de vista múltiple de un solo paso como entrada y genera un conjunto de distribuciones de probabilidad gaussianas 4D.
marco técnico

El modelo toma como entrada un vídeo de vista única y una imagen de vista múltiple de un solo paso de tiempo, y genera un conjunto de gaussianos 4D. Adopta la arquitectura U-Net, utiliza la autoatención de vista cruzada para lograr la coherencia de la vista y utiliza la autoatención de tiempo a espacio para lograr la coherencia temporal.

L4GM permite la reconstrucción autorregresiva, utilizando una representación de múltiples vistas del último gaussiano como entrada para la siguiente reconstrucción. Hay un cuadro de superposición entre dos reconstrucciones consecutivas. Además, el equipo de investigación también entrenó un modelo de interpolación 4D. El modelo de interpolación recibe el vídeo multivista interpolado renderizado a partir de los resultados de la reconstrucción y genera el gaussiano interpolado.
Los escenarios aplicables de L4GM incluyen:
Generación de contenido de vídeo: L4GM puede generar modelos 4D de objetos animados a partir de una entrada de vídeo de vista única, lo que tiene amplias aplicaciones en la producción de efectos especiales de vídeo, desarrollo de juegos y otros campos. Por ejemplo, se puede utilizar para generar animaciones de efectos especiales, crear escenas virtuales, etc.
Reconstrucción y reparación de video: L4GM puede reconstruir videos de alta velocidad de fotogramas a largo plazo y puede usarse para reparación y restauración de videos para mejorar la calidad y claridad del video. Esto puede resultar útil en la restauración de películas, la compresión y el procesamiento de vídeo.
Interpolación de video: a través del modelo de interpolación 4D entrenado, L4GM puede aumentar la velocidad de fotogramas del video y hacerlo más fluido. Esto tiene aplicaciones potenciales en edición de video, producción de efectos de cámara lenta/cámara rápida, etc.
Generación de activos 3D: L4GM puede generar activos 3D animados de alta calidad, lo cual es muy útil para la generación de modelos 3D en aplicaciones de realidad virtual (VR), realidad aumentada (AR) y desarrollo de juegos.
Entrada del producto: https://top.aibase.com/tool/l4gm
Con todo, el modelo L4GM ha logrado avances significativos en el campo de la reconstrucción gaussiana 4D, y su alta eficiencia, resultados de alta calidad y amplias perspectivas de aplicación lo convierten en un resultado de investigación de gran importancia. La aparición de este modelo promoverá en gran medida el progreso en áreas como el procesamiento de vídeo y la generación de activos 3D.