Meta, bekerja sama dengan Universitas Sains dan Teknologi King Abdullah (KAUST) di Arab Saudi, telah meluncurkan lini model difusi video baru yang disebut MarDini. Model ini dapat dengan mudah dan efisien membuat video berkualitas tinggi dan menerapkan berbagai fungsi seperti pengisian bingkai video, konversi gambar ke video, dan perluasan video, yang sangat menyederhanakan proses pembuatan video. Redaksi Downcodes akan menjelaskan secara detail karakteristik dan keunggulan model MarDini, serta kontribusi terobosannya di bidang pemrosesan video.
Baru-baru ini, Meta bermitra dengan Universitas Sains dan Teknologi King Abdullah (KAUST) Arab Saudi untuk meluncurkan lini model difusi video baru – MarDini. Model ini membuat pembuatan video berkualitas tinggi lebih mudah dan fleksibel, mampu menyelesaikan tugas seperti mengisi bingkai yang hilang dalam video, mengubah gambar tunggal menjadi adegan dinamis, dan bahkan memperluas klip pendek dengan menambahkan bagian bingkai kontinu yang alami.

MarDini juga memiliki kemampuan untuk memperluas video dengan mengkondisikan video yang ada dengan durasi berapa pun. Kami menambahkan 12 frame baru ke setiap urutan dengan menghasilkan ekstensi 2 detik dari video referensi 5 frame.
MarDini mengimplementasikan interpolasi video dengan menghasilkan frame perantara menggunakan frame pertama dan terakhir sebagai sinyal pengkondisian. Jika bingkai batas ini sama, MarDini dapat membuat video perulangan yang mulus.
Cara kerja MarDini sangat menarik. Ini menggunakan teknologi pembuatan video yang canggih dan efisien dan terutama terdiri dari dua bagian: model perencanaan dan model pembuatan. Pertama, model perencanaan menggunakan metode masked autoregressive (MAR) untuk menginterpretasikan frame input beresolusi rendah dan menghasilkan sinyal panduan untuk frame yang perlu dibuat. Model generatif yang ringan kemudian menggunakan proses difusi untuk menghasilkan bingkai detail beresolusi tinggi, memastikan video akhir halus dan menyenangkan secara visual.
Tidak seperti banyak model video yang memerlukan model gambar terlatih yang kompleks, MarDini mengklaim dilatih dari awal menggunakan data video tanpa label. Hal ini karena model ini mengadopsi strategi pelatihan progresif, yang memungkinkan model mengatasi konfigurasi frame yang berbeda dengan lebih baik dengan menyesuaikan metode masking frame secara fleksibel selama proses pelatihan.
Ciri khas MarDini adalah fleksibilitas dan kinerjanya. Ini tidak hanya kuat tetapi juga efisien, cocok untuk tugas skala besar. Model ini dapat menangani tugas-tugas seperti interpolasi video, pembuatan gambar-ke-video, dan perluasan video, baik menghaluskan klip video yang ada atau membuat rangkaian lengkap dari awal.
Dalam hal kinerja, MarDini menetapkan tolok ukur baru, menghasilkan video berkualitas tinggi dalam beberapa langkah, menjadikannya hemat biaya dan waktu dibandingkan dengan alternatif yang lebih kompleks. Makalah penelitian resmi menyatakan, "Studi kami menunjukkan bahwa strategi pemodelan kami bekerja secara kompetitif pada berbagai tolok ukur interpolasi dan animasi sekaligus mengurangi kebutuhan komputasi pada skala parameter yang sebanding."
Pintu masuk proyek: https://mardini-vidgen.github.io/
Secara keseluruhan, model MarDini menghadirkan kemungkinan-kemungkinan baru dalam bidang pembuatan video dengan kinerja yang efisien dan skenario aplikasi yang fleksibel. Teknologi inovatif dan kinerjanya yang unggul menjadikannya diharapkan menjadi teknologi terdepan di bidang pembuatan dan pemrosesan video di masa depan. Nantikan MarDini menghadirkan lebih banyak kejutan di masa mendatang!