Meta與沙烏地阿拉伯阿卜杜拉國王科技大學(KAUST)合作,推出了名為MarDini的全新視訊擴散模型系列。該模型能夠輕鬆有效地創建高品質視頻,實現視頻幀填充、圖像轉視頻、視頻擴展等多種功能,極大地簡化了視頻創作流程。 Downcodes小編將為您詳細解讀MarDini模型的特性與優勢,以及在影片處理領域的突破性貢獻。
最近,Meta 與沙烏地阿拉伯的阿卜杜拉國王科技大學(KAUST)合作,推出了全新的視訊擴散模型系列-MarDini。這個模型讓高品質影片的創作變得更加簡單和靈活,能夠完成多種任務,例如填補影片中缺少的幀,將單張圖片轉換為動態場景,甚至可以透過添加自然的連續幀來擴展短片段。

MarDini 還能夠透過調節任何長度的現有影片來擴展影片。我們透過從5幀參考影片產生2秒擴展,為每個序列添加12個新幀。
MarDini 透過使用第一幀和最後一幀作為調節訊號產生中間幀來實現視訊插值。當這些邊界幀相同時,MarDini 可以創建無縫循環影片。
MarDini 的工作原理非常有趣。它採用了先進而高效的視訊生成技術,主要由兩個部分構成:規劃模型和生成模型。首先,規劃模型會利用遮罩自回歸(MAR)方法來解釋低解析度的輸入幀,產生需要建立的幀的指導訊號。然後,輕量級的生成模型透過擴散過程來產生高解析度的詳細幀,從而確保最終影片流暢且視覺效果良好。
與許多需要複雜預訓練影像模型的視訊模型不同,MarDini 聲稱可以從零開始使用未標記的視訊資料進行訓練。這是因為它採用了漸進式訓練策略,透過靈活地調整訓練過程中幀的遮罩方式,使得模型能夠更好地應對不同的幀配置。
MarDini 的一個顯著特徵是其靈活性和性能。它不僅強大而且高效,適用於更大規模的任務。這個模型能夠處理視訊插值、影像轉視訊產生和視訊擴展等多種任務,無論是平滑現有的視訊片段,還是從頭開始創建完整的序列,它都能游刃有餘。
在性能方面,MarDini 設定了新的基準,以更少的步驟生成高品質視頻,這使得它在成本和時間上都比更複雜的替代方案更具優勢。官方研究論文指出,“我們的研究表明,我們的建模策略在多種插值和動畫基準測試中表現出競爭力,同時在可比參數規模下降低了計算需求。”
計畫入口:https://mardini-vidgen.github.io/
總而言之,MarDini 車型憑藉其高效的性能和靈活的應用場景,為影片創作領域帶來了新的可能性。其創新性的技術和優越的性能,使其有望成為未來視訊生成和處理領域的領先技術。 期待MarDini在未來帶來更多驚喜!