Makalah ini memperkenalkan model rekonstruksi 4D Gaussian skala besar yang disebut L4GM, yang mampu secara efisien menghasilkan objek animasi berkualitas tinggi dari video tampilan tunggal. Ini dilatih pada kumpulan data besar yang berisi video multi-tayangan dan dirancang secara inovatif untuk mencapai kecepatan pemrosesan yang cepat hanya satu detik untuk transmisi satu arah. Keunggulan L4GM adalah dapat merekonstruksi video panjang dan video dengan frame rate tinggi, serta mendukung interpolasi 4D untuk meningkatkan frame rate video secara signifikan. Selain itu, model tersebut juga menunjukkan kemampuan generalisasi yang baik dan dapat mencapai hasil yang memuaskan dalam video adegan nyata.
Baru-baru ini, tim peneliti mengusulkan model rekonstruksi 4D Gaussian skala besar yang disebut L4GM, yang dapat menghasilkan objek animasi dari input video tampilan tunggal dan mencapai hasil yang mengesankan.
Kunci dari model ini adalah kumpulan data yang inovatif dan desain yang disederhanakan, yang memungkinkan penyelesaian transfer satu arah hanya dalam satu detik, sekaligus memastikan kualitas tinggi dari objek animasi keluaran.
Pengomposisian video ke 4D
L4GM dapat menghasilkan objek 4D dari video dalam beberapa detik. Dalam contoh video berikut, Anda dapat melihat objek target di video asli dan model rekonstruksi Gaussian 4D yang dihasilkan.
Rekonstruksi video yang panjang, FPS tinggi, dan fleksibel
Dan merekonstruksi video 30fps berdurasi 10 detik. Seperti contoh pada video berikut ini,
interpolasi 4D
Tim juga melatih model interpolasi 4D untuk meningkatkan frame rate sebanyak 3 kali lipat. Seperti contoh pada video berikut ini,
Kiri: sebelum interpolasi. Benar: setelah interpolasi
Bangun kumpulan data video perspektif
Tim peneliti membuat kumpulan data yang berisi video multi-tayangan yang berisi objek animasi yang dibuat dengan cermat dan dirender dari Objaverse. Kumpulan data ini menampilkan 44.000 objek beragam yang mencakup 110.000 animasi dari 48 sudut pandang, sehingga menghasilkan total 120 juta video dengan total 300 juta frame. Berdasarkan kumpulan data ini, L4GM dibangun secara langsung pada model rekonstruksi skala besar 3D LGM yang telah dilatih sebelumnya, yang menghasilkan keluaran ellipsoid Gaussian 3D dari masukan gambar multi-tampilan.
L4GM mencapai kehalusan temporal dengan menghasilkan representasi splash Gaussian 3D dari setiap frame pada frame video yang diambil sampelnya pada fps rendah, dan kemudian meningkatkan representasi tersebut ke fps yang lebih tinggi.
Untuk membantu model mempelajari konsistensi temporal, tim peneliti menambahkan lapisan perhatian mandiri temporal ke LGM dasar dan menggunakan kehilangan rendering multi-tampilan pada setiap langkah waktu untuk melatih model. Dengan melatih model interpolasi, representasi ini ditingkatkan sampelnya ke kecepatan frame yang lebih tinggi, sehingga menghasilkan representasi Gaussian 3D perantara.
Tim peneliti menunjukkan kemampuan generalisasi yang baik dari L4GM pada video di alam liar setelah pelatihan pada data sintetis, menghasilkan objek animasi 3D berkualitas tinggi. Model ini menerima video tampilan tunggal dan gambar multi-tampilan satu langkah waktu sebagai masukan, dan mengeluarkan serangkaian distribusi probabilitas 4D Gaussian.
kerangka teknis

Model ini mengambil input video tampilan tunggal dan gambar multi-tampilan satu langkah waktu, dan mengeluarkan sekumpulan Gaussian 4D. Ini mengadopsi arsitektur U-Net, menggunakan perhatian mandiri lintas-pandangan untuk mencapai konsistensi tampilan, dan menggunakan perhatian mandiri waktu-ke-spasial untuk mencapai konsistensi temporal.

L4GM memungkinkan rekonstruksi autoregresif, menggunakan rendering multi-tampilan dari Gaussian terakhir sebagai masukan untuk rekonstruksi berikutnya. Ada satu kerangka yang tumpang tindih antara dua rekonstruksi yang berurutan. Selain itu, tim peneliti juga melatih model interpolasi 4D. Model interpolasi menerima video multi-view yang diinterpolasi yang dirender dari hasil rekonstruksi dan mengeluarkan Gaussian yang diinterpolasi.
Skenario yang berlaku di L4GM meliputi:
Pembuatan konten video: L4GM dapat menghasilkan model objek animasi 4D dari input video tampilan tunggal, yang memiliki aplikasi luas dalam produksi efek khusus video, pengembangan game, dan bidang lainnya. Misalnya, dapat digunakan untuk menghasilkan animasi efek khusus, membuat adegan virtual, dll.
Rekonstruksi dan perbaikan video: L4GM dapat merekonstruksi video jangka panjang dengan kecepatan frame tinggi dan dapat digunakan untuk perbaikan dan restorasi video guna meningkatkan kualitas dan kejelasan video. Ini dapat berguna dalam restorasi film, kompresi video, dan pemrosesan video.
Interpolasi video: Melalui model interpolasi 4D terlatih, L4GM dapat meningkatkan frame rate video dan membuat video lebih lancar. Ini memiliki aplikasi potensial dalam pengeditan video, produksi efek gerakan lambat/gerakan cepat, dll.
Pembuatan aset 3D: L4GM dapat menghasilkan aset 3D animasi berkualitas tinggi, yang sangat berguna untuk pembuatan model 3D dalam aplikasi virtual reality (VR), augmented reality (AR), dan pengembangan game.
Pintu masuk produk: https://top.aibase.com/tool/l4gm
Secara keseluruhan, model L4GM telah mencapai kemajuan yang signifikan di bidang rekonstruksi 4D Gaussian, dan efisiensinya yang tinggi, keluaran berkualitas tinggi, serta prospek penerapan yang luas menjadikannya hasil penelitian yang sangat penting. Munculnya model ini akan sangat mendorong kemajuan di berbagai bidang seperti pemrosesan video dan pembuatan aset 3D.