Meta, en asociación con la Universidad de Ciencia y Tecnología Rey Abdullah (KAUST) en Arabia Saudita, lanzó una nueva línea de modelos de difusión de video llamada MarDini. Este modelo puede crear videos de alta calidad de manera fácil y eficiente e implementar múltiples funciones, como el llenado de fotogramas de video, la conversión de imágenes a video y la expansión de video, lo que simplifica enormemente el proceso de creación de videos. El editor de Downcodes explicará en detalle las características y ventajas del modelo MarDini, así como su revolucionaria aportación en el campo del procesamiento de vídeo.
Recientemente, Meta se asoció con la Universidad de Ciencia y Tecnología Rey Abdullah (KAUST) de Arabia Saudita para lanzar una nueva línea de modelos de difusión de video: MarDini. Este modelo hace que la creación de vídeos de alta calidad sea más fácil y flexible, capaz de completar tareas como completar fotogramas faltantes en un vídeo, convertir imágenes individuales en escenas dinámicas e incluso ampliar clips cortos añadiendo fotogramas continuos naturales.

MarDini también tiene la capacidad de ampliar el vídeo acondicionando el vídeo existente de cualquier duración. Agregamos 12 cuadros nuevos a cada secuencia generando una extensión de 2 segundos a partir de un video de referencia de 5 cuadros.
MarDini implementa la interpolación de video generando fotogramas intermedios utilizando el primer y último fotograma como señales condicionantes. Cuando estos cuadros de límites son los mismos, MarDini puede crear videos en bucle sin interrupciones.
El funcionamiento de MarDini es muy interesante. Utiliza tecnología de generación de video avanzada y eficiente y consta principalmente de dos partes: modelo de planificación y modelo de generación. Primero, el modelo de planificación utiliza el método autorregresivo enmascarado (MAR) para interpretar cuadros de entrada de baja resolución y generar señales de guía para los cuadros que deben crearse. Luego, un modelo generativo liviano utiliza un proceso de difusión para generar cuadros detallados de alta resolución, lo que garantiza que el video final sea fluido y visualmente agradable.
A diferencia de muchos modelos de vídeo que requieren modelos de imágenes complejos previamente entrenados, MarDini afirma haber sido entrenado desde cero utilizando datos de vídeo sin etiquetar. Esto se debe a que adopta una estrategia de entrenamiento progresiva, que permite que el modelo se enfrente mejor a diferentes configuraciones de cuadros ajustando de manera flexible el método de enmascaramiento de los cuadros durante el proceso de entrenamiento.
Una característica distintiva de MarDini es su flexibilidad y rendimiento. No sólo es potente sino también eficiente, adecuado para tareas de mayor escala. Este modelo puede manejar tareas como la interpolación de video, la generación de imagen a video y la expansión de video, ya sea suavizando clips de video existentes o creando secuencias completas desde cero.
En términos de rendimiento, MarDini establece nuevos puntos de referencia, produciendo vídeo de alta calidad en menos pasos, lo que lo hace rentable y rentable en comparación con alternativas más complejas. El artículo de investigación oficial afirma: "Nuestro estudio muestra que nuestra estrategia de modelado funciona de manera competitiva en una variedad de puntos de referencia de interpolación y animación al tiempo que reduce los requisitos computacionales en escalas de parámetros comparables".
Entrada del proyecto: https://mardini-vidgen.github.io/
Con todo, el modelo MarDini aporta nuevas posibilidades al campo de la creación de vídeo con su rendimiento eficiente y escenarios de aplicación flexibles. Su tecnología innovadora y su rendimiento superior hacen que se espere que se convierta en la tecnología líder en el campo de la generación y el procesamiento de vídeo en el futuro. ¡Esperamos que MarDini traiga más sorpresas en el futuro!