A Meta, em parceria com a Universidade de Ciência e Tecnologia King Abdullah (KAUST) da Arábia Saudita, lançou uma nova linha de modelos de difusão de vídeo chamada MarDini. Este modelo pode criar vídeos de alta qualidade de maneira fácil e eficiente e implementar múltiplas funções, como preenchimento de quadros de vídeo, conversão de imagem em vídeo e expansão de vídeo, o que simplifica muito o processo de criação de vídeo. O editor de Downcodes explicará detalhadamente as características e vantagens do modelo MarDini, bem como sua contribuição inovadora na área de processamento de vídeo.
Recentemente, a Meta fez parceria com a Universidade de Ciência e Tecnologia King Abdullah (KAUST) da Arábia Saudita para lançar uma nova linha de modelos de difusão de vídeo – MarDini. Este modelo torna a criação de vídeos de alta qualidade mais fácil e flexível, capaz de realizar tarefas como preencher quadros faltantes em um vídeo, converter imagens únicas em cenas dinâmicas e até estender clipes curtos adicionando quadros contínuos naturais.

MarDini também tem a capacidade de estender o vídeo condicionando o vídeo existente de qualquer duração. Adicionamos 12 novos quadros a cada sequência gerando uma extensão de 2 segundos a partir de um vídeo de referência de 5 quadros.
MarDini implementa interpolação de vídeo gerando quadros intermediários usando o primeiro e o último quadros como sinais de condicionamento. Quando esses quadros limites são iguais, MarDini pode criar vídeos em loop contínuo.
O funcionamento do MarDini é muito interessante. Utiliza tecnologia de geração de vídeo avançada e eficiente e consiste principalmente em duas partes: modelo de planejamento e modelo de geração. Primeiro, o modelo de planejamento utiliza o método autorregressivo mascarado (MAR) para interpretar quadros de entrada de baixa resolução e gerar sinais de orientação para os quadros que precisam ser criados. Um modelo generativo leve usa então um processo de difusão para gerar quadros detalhados de alta resolução, garantindo que o vídeo final seja suave e visualmente agradável.
Ao contrário de muitos modelos de vídeo que exigem modelos de imagem pré-treinados complexos, MarDini afirma ser treinado do zero usando dados de vídeo não rotulados. Isso ocorre porque ele adota uma estratégia de treinamento progressiva, que permite ao modelo lidar melhor com diferentes configurações de frames, ajustando de forma flexível o método de mascaramento de frames durante o processo de treinamento.
Uma característica distintiva do MarDini é a sua flexibilidade e desempenho. Não é apenas poderoso, mas também eficiente, adequado para tarefas de maior escala. Este modelo pode lidar com tarefas como interpolação de vídeo, geração de imagem para vídeo e expansão de vídeo, seja suavizando clipes de vídeo existentes ou criando sequências completas do zero.
Em termos de desempenho, a MarDini estabelece novos padrões de referência, produzindo vídeo de alta qualidade em menos etapas, tornando-o econômico e econômico em comparação com alternativas mais complexas. O artigo de pesquisa oficial afirma: “Nosso estudo mostra que nossa estratégia de modelagem tem um desempenho competitivo em uma variedade de benchmarks de interpolação e animação, ao mesmo tempo que reduz os requisitos computacionais em escalas de parâmetros comparáveis”.
Entrada do projeto: https://mardini-vidgen.github.io/
Em suma, o modelo MarDini traz novas possibilidades ao campo da criação de vídeo com o seu desempenho eficiente e cenários de aplicação flexíveis. Sua tecnologia inovadora e desempenho superior fazem com que ele se torne a tecnologia líder na área de geração e processamento de vídeo no futuro. Esperamos que MarDini traga mais surpresas no futuro!