Tim peneliti Meta Reality Labs baru -baru ini mengumumkan peluncuran model generatif inovatif yang disebut "Pippo", yang dapat menghasilkan video turnover intensif hingga resolusi 1K dari satu foto normal. Terobosan teknologi ini tidak hanya menunjukkan kemajuan terbaru dalam bidang visi komputer, tetapi juga membawa kemungkinan baru pada teknologi pembuatan gambar.
Inovasi inti dari model PIPPO terletak pada desain konverter difusi multi-view. Tidak seperti model generatif tradisional, PIPPO tidak perlu mengandalkan data input tambahan seperti model parameter pemasangan atau parameter kamera. Pengguna hanya perlu memberikan satu foto, dan sistem dapat secara otomatis menghasilkan efek video multi-view, sehingga menghadirkan gambar karakter yang lebih jelas dan tiga dimensi.
Untuk kenyamanan pengembang, Pippo dirilis sebagai versi kode saja kali ini, tanpa bobot pra-pelatihan. Tim peneliti menyediakan model lengkap, file konfigurasi, kode inferensi, dan kode pelatihan sampel untuk dataset AVA-256. Pengembang dapat dengan cepat memulai pelatihan model dan pengembangan aplikasi melalui kloning perintah sederhana dan mengatur basis kode.
Rencana masa depan untuk proyek PIPPO mencakup pengumpulan lebih lanjut dan optimalisasi kode dan meluncurkan skrip inferensi untuk model pra-terlatih. Perbaikan ini akan secara signifikan meningkatkan pengalaman pengguna dan mempromosikan popularitas teknologi ini secara luas dalam aplikasi praktis.
Tautan Proyek: https://github.com/facebookResearch/pippo
Poin -Poin Kunci:
Model PIPPO mampu menghasilkan video multi-view resolusi tinggi dari satu foto normal tanpa input tambahan.
Kode ini hanya diterbitkan dan tidak termasuk bobot pra-pelatihan.
Tim berencana untuk meluncurkan lebih banyak fitur dan peningkatan di masa depan untuk meningkatkan pengalaman pengguna.