Meta lanza una nueva generación de modelo de generación de videos Mardini, para completar la tarea de llenar los marcos de video faltantes - AI Artículos

Autor：Eve Cole Fecha de actualización：2025-02-11 02:00:02

Meta se ha asociado con la Universidad Tecnológica del Rey Abdullah (KAUST) en Arabia Saudita para lanzar una nueva serie de modelos de difusión de video llamados Mardini. Este modelo puede completar eficientemente una variedad de tareas de generación de videos, incluida la interpolación de video, la conversión de imagen a video y la expansión de video, simplificando en gran medida el proceso de creación de video de alta calidad. Mardini utiliza una combinación de modelos de planificación y modelos generativos para generar videos de alta calidad con menos pasos a través de métodos y procesos de difusión de Autorregresión (MAR) de Mask, que muestran ventajas significativas en el rendimiento y la eficiencia, proporcionando a los creadores de video herramientas potentes y establecen nuevos puntos de vista de la industria.

Basado en el año pasado, Meta más hizo esfuerzos en el campo de la generación de videos de IA. Anteriormente, lanzó modelos de texto a video y edición como EMU Video y EMU Edit. Este año, también se lanzó la película avanzada de la película Gen de la película. Esto muestra que Meta se compromete a proporcionar a los creadores de videos herramientas más poderosas.

El poder de Mardini es que puede generar videos basados en cualquier cantidad de marcos enmascarados, y admite una variedad de tareas de generación, como interpolación de video, conversión de imagen a video y expansión de video.

Resultados de imagen a video

Entre ellos, la aplicación principal de Mardini es la generación de imagen a video. Esta característica se demuestra utilizando un marco de referencia colocado en el medio como una entrada condicional y generando 16 marcos adicionales. En el ejemplo oficial de video generado, se pueden generar 17 cuadros renderizados a 8 fps para un video suave de 2 segundos.

Resultados de la extensión de video

Mardini también le permite expandir su video ajustando los videos existentes durante cualquier tiempo. Agregamos 12 cuadros nuevos a cada secuencia generando una extensión de 2 segundos a partir de un video de referencia de 5 cuadros.

Resultados de la interpolación de video

Mardini implementa la interpolación de video generando marcos intermedios utilizando los primeros y últimos cuadros como señales de ajuste. Cuando estos marcos límite son los mismos, Mardini puede crear videos de bucle sin costuras.

Cómo funciona Mardini es muy interesante. Adopta tecnología de generación de videos avanzada y eficiente, principalmente compuesta de dos partes: modelo de planificación y modelo generativo. Primero, el modelo de planificación utiliza el método de Mask Autorregression (MAR) para interpretar los marcos de entrada de baja resolución, generando señales de guía para los marcos que deben crearse. El modelo generativo ligero luego genera marcos detallados de alta resolución a través del proceso de difusión, asegurando que el video final sea suave y visualmente bueno.

A diferencia de muchos modelos de video que requieren modelos de imagen pre-capacitados complejos, Mardini afirma ser entrenado desde cero utilizando datos de video no etiquetados. Esto se debe a que adopta una estrategia de entrenamiento progresiva, que permite que el modelo haga frente mejor a diferentes configuraciones de cuadros ajustando de manera flexible el método de enmascaramiento de los marcos durante el entrenamiento.

Una característica distintiva de Mardini es su flexibilidad y rendimiento. No solo es poderoso sino también eficiente, adecuado para tareas más grandes. Este modelo puede manejar una variedad de tareas, como la interpolación de video, la generación de imagen a video y la expansión de video, ya sea suavizando los videoclips existentes o creando una secuencia completa desde cero.

En términos de rendimiento, Mardini establece nuevos puntos de referencia para generar videos de alta calidad con menos pasos, lo que lo hace más en cuanto a costo y tiempo que alternativas más complejas. "Nuestra investigación muestra que nuestra estrategia de modelado demuestra competitividad en una variedad de puntos de referencia de interpolación y animación, al tiempo que reduce la demanda computacional a escalas de parámetros comparables", señaló el artículo de investigación oficial.

Entrada del proyecto: https://mardini-vidgen.github.io/

Puntos clave:

Mardini es un modelo de generación de videos de nueva generación lanzado por Meta y Kaust, que puede completar fácilmente una variedad de tareas de creación de video.

Este modelo logra la interpolación de video eficiente y la generación de imagen a video a través de la combinación de modelos de planificación y generación.

Mardini genera videos de alta calidad con menos pasos, mejorando significativamente la flexibilidad y la eficiencia de la creación.

En resumen, la aparición de Mardini marca un avance significativo en la tecnología de generación de videos, con su rendimiento eficiente y escenarios de aplicaciones flexibles que traen nuevas posibilidades al campo de la creación de videos. En el futuro, Mardini puede desempeñar un papel más importante en la producción cinematográfica, la producción de animación y otras áreas que requieren la generación de videos.