Pernahkah Anda mendambakan adegan-adegan yang indah dalam foto dua dimensi dan ingin mengalami gambar-gambar yang menawan secara langsung? Sekarang, mimpi ini diharapkan menjadi kenyataan! Pada CVPR2025, sebuah studi besar yang disebut MIDI (difusi multi-instansi untuk gambar tunggal ke generasi adegan 3D, gambar tunggal difusi multi-instance ke generasi adegan 3D) muncul. Teknologi ini seperti pesulap yang terampil. Dengan hanya gambar 2D yang normal, Anda dapat membuat adegan 3D 360 derajat yang hidup untuk Anda.
Bayangkan Anda mengambil sudut kafe dengan sinar matahari bersinar, dengan meja dan kursi yang indah, cangkir kopi yang harum, dan pohon -pohon bergoyang di luar jendela. Di masa lalu, ini hanya gambar datar statis. Tetapi dengan MIDI, Anda hanya perlu "memberi makan" foto ini, dan apa yang terjadi selanjutnya dapat disebut "mengubah batu menjadi emas".
MIDI bekerja dengan sangat cerdik. Pertama, secara cerdas memegmen gambar tunggal input, seperti artis yang berpengalaman, dapat secara akurat mengidentifikasi berbagai elemen independen dalam adegan, seperti meja, kursi, cangkir kopi, dll. Bagian gambar "dibongkar" ini, bersama dengan informasi lingkungan adegan secara keseluruhan, akan menjadi dasar penting bagi MIDI untuk membangun adegan 3D.
Tidak seperti beberapa metode lain untuk menghasilkan objek 3D satu per satu dan kemudian menggabungkannya, MIDI mengadopsi cara yang lebih efisien dan cerdas dari difusi sinkron multi-instansi. Ini berarti dapat memodelkan 3D beberapa objek dalam adegan pada saat yang sama, yang seperti orkestra memainkan instrumen yang berbeda pada saat yang sama, akhirnya berkumpul menjadi gerakan yang harmonis.
Yang lebih menakjubkan adalah bahwa MIDI juga memperkenalkan mekanisme perhatian multi-instansi baru. Mekanisme ini seperti "dialog" antara berbagai objek dalam adegan. Ini dapat secara efektif menangkap interaksi dan hubungan spasial antara objek, memastikan bahwa adegan 3D yang dihasilkan tidak hanya berisi objek independen, tetapi yang lebih penting, penempatan dan pengaruh timbal balik di antara mereka logis dan terintegrasi. Kemampuan untuk secara langsung mempertimbangkan hubungan antara objek selama proses generasi menghindari langkah-langkah pasca pemrosesan yang kompleks dalam metode tradisional dan sangat meningkatkan efisiensi dan rasa realitas.
MIDI dapat secara langsung menghasilkan instance 3D yang terdiri dari satu gambar tanpa pemrosesan multi-tahap yang kompleks. Dikatakan bahwa seluruh proses pemrosesan hanya membutuhkan waktu 40 detik pada yang tercepat, yang jelas merupakan berkah bagi pengguna yang mengejar efisiensi. Dengan memperkenalkan lapisan perhatian multi-instansi dan lapisan silang, MIDI dapat sepenuhnya memahami informasi konteks adegan global dan mengintegrasikannya ke dalam proses pembuatan setiap objek 3D independen, sehingga memastikan koordinasi keseluruhan adegan dan kekayaan detail.
Selama proses pelatihan, MIDI secara cerdik menggunakan data tingkat adegan terbatas untuk mengawasi interaksi antara instance 3D, dan mengintegrasikan sejumlah besar data objek tunggal untuk regularisasi, yang memungkinkannya untuk secara akurat menghasilkan model 3D yang sesuai dengan logika adegan sambil mempertahankan kemampuan generalisasi yang baik. Perlu disebutkan bahwa rincian tekstur adegan 3D yang dihasilkan oleh MIDI tidak lebih rendah, berkat penerapan teknologi seperti adaptor MV, membuat adegan 3D akhir terlihat lebih realistis dan kredibel.
Dapat diramalkan bahwa munculnya teknologi MIDI akan memicu gelombang baru di banyak bidang. Apakah itu pengembangan game, realitas virtual, desain interior, atau perlindungan digital dari peninggalan budaya, MIDI akan memberikan metode produksi konten 3D yang baru, efisien dan nyaman. Bayangkan bahwa di masa depan, kita mungkin hanya perlu mengambil foto untuk dengan cepat membangun lingkungan 3D interaktif untuk mencapai "perjalanan waktu satu klik" yang benar.
Pintu masuk proyek: https://huangzh.github.io/midi-page/