
Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, dan Aysegul Dundar
Jaringan permusuhan generatif (GANS) telah muncul sebagai alat yang kuat untuk pembuatan gambar berkualitas tinggi dan pengeditan gambar nyata dengan memanipulasi ruang laten mereka. Kemajuan terbaru dalam GANS termasuk model sadar 3D seperti EG3D, yang menampilkan arsitektur berbasis triplane yang efisien yang mampu merekonstruksi geometri 3D dari gambar tunggal. Namun, perhatian terbatas telah diberikan untuk menyediakan kerangka kerja terintegrasi untuk pengeditan gambar berbasis referensi, berkualitas tinggi, dan berkualitas tinggi. Studi ini membahas kesenjangan ini dengan mengeksplorasi dan menunjukkan efektivitas ruang triplane untuk suntingan berbasis referensi canggih. Pendekatan novel kami mengintegrasikan pengkodean, lokalisasi otomatis, gangguan spasial fitur triplane, dan pembelajaran fusi untuk mencapai pengeditan yang diinginkan. Selain itu, kerangka kerja kami menunjukkan keserbagunaan dan kekokohan di berbagai domain, memperluas efektivitasnya terhadap pengeditan wajah hewan, pengeditan sebagian bergaya seperti wajah kartun, pengeditan pakaian tubuh penuh, dan pengeditan kepala 360 derajat. Metode kami menunjukkan kinerja canggih tentang arah laten yang relevan, teks, dan difusi 2D dan 3D yang dipandu gambar dan metode GAN, baik secara kualitatif maupun kuantitatif.
git clone --recursive https://github.com/three-bee/triplane_edit.gitcd ./triplane_edit && pip install -r requirements.txt Kami mengikuti persiapan dataset EG3D untuk ekstraksi pose dan penyelarasan wajah. Pastikan Anda tidak melewatkan pengaturan deep3dfacerecon_pytorch. Kemudian, jalankan kode preprocessing in-the-wild:
cd ./dataset_preprocessing/ffhq
python preprocess_in_the_wild.py --indir=YOUR_INPUT_IMAGE_FOLDER
Ini akan menghasilkan gambar yang selaras dan dataset.json yang berisi matriks kamera di YOUR_INPUT_IMAGE_FOLDER/preprocessed/ .
Kami telah memasukkan contoh gambar dan pose di ./example/ .
Masukkan semua file yang diunduh di ./checkpoints/ .
| Jaringan | Nama file |
|---|---|
| EG3D Generator Rebalance | ffhqrebalanced512-128.pkl |
| EG3D-GOAE Encoders | encoder_FFHQ.pt & afa_FFHQ.pt |
| Encoder fusi finetuned | encoder_FFHQ_finetuned.pt |
| Segmentasi bisenet | 79999_iter.pth |
| IR-SE50 untuk kehilangan ID | model_ir_se50.pth |
Jalankan demo.ipynb untuk berbagai contoh pengeditan.
Basis kode kami menggunakan karya-karya hebat berikut: EG3D, EG3D-GOAE, TriplanEnetv2, Bisenet, dan Deep3DFacerecon_Pytorch. Kami berterima kasih kepada penulis karena telah menyediakannya.
@misc{bilecen2024referencebased,
title={Reference-Based 3D-Aware Image Editing with Triplanes},
author={Bahri Batuhan Bilecen and Yigit Yalin and Ning Yu and Aysegul Dundar},
year={2024},
eprint={2404.03632},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Hak Cipta 2024 Bilkent DLR. Dilisensikan di bawah lisensi Apache, versi 2.0 ("lisensi").