
Bahri Batuhan Bilecen、Yigit Yalin、Ning Yu、およびAysegul Dundar
生成的敵対ネットワーク(GAN)は、潜在スペースを操作することにより、高品質の画像生成と実際の画像編集のための強力なツールとして浮上しています。 GANの最近の進歩には、EG3Dなどの3Dアウェアモデルが含まれています。EG3Dには、単一の画像から3Dジオメトリを再構築できる効率的なトリプレーベースのアーキテクチャが備えています。ただし、3Dが認識し、高品質の参照ベースの画像編集のための統合フレームワークを提供することには、限られた注意が払われています。この研究では、高度な参照ベースの編集のためのトリプレーン空間の有効性を調査および実証することにより、このギャップに対処します。私たちの斬新なアプローチは、エンコード、自動ローカリゼーション、トリプレーン機能の空間的解体、および望ましい編集を実現するための融合学習を統合します。さらに、私たちのフレームワークは、さまざまなドメインにわたって汎用性と堅牢性を示し、動物の顔の編集、漫画の顔、全身衣類の編集、360度のヘッドエディットなどの部分的に様式化された編集に有効性を拡大します。私たちの方法では、関連する潜在的方向、テキスト、画像ガイド付きの2Dおよび3Dに認識された拡散およびGANメソッドの両方で、定性的および定量的に最先端のパフォーマンスを示しています。
git clone --recursive https://github.com/three-bee/triplane_edit.gitcd ./triplane_edit && pip install -r requirements.txt ポーズ抽出と顔のアライメントのためのEG3Dのデータセット準備に従います。 deep3dfacerecon_pytorchのセットアップをスキップしないようにしてください。次に、野生の前処理コードを実行します。
cd ./dataset_preprocessing/ffhq
python preprocess_in_the_wild.py --indir=YOUR_INPUT_IMAGE_FOLDER
これにより、Aligned Imagesとdataset.jsonがYOUR_INPUT_IMAGE_FOLDER/preprocessed/にカメラマトリックスを含むJSONが生成されます。
画像とポーズの例を./example/に含めました。
ダウンロードしたすべてのファイルを./checkpoints/に入れます。
| ネットワーク | ファイル名 |
|---|---|
| EG3Dリバランスジェネレーター | ffhqrebalanced512-128.pkl |
| EG3D-GOAEエンコーダー | encoder_FFHQ.pt & afa_FFHQ.pt |
| Finetuned Fusionエンコーダー | encoder_FFHQ_finetuned.pt |
| ビセネットセグメンテーション | 79999_iter.pth |
| ID損失のIR-SE50 | model_ir_se50.pth |
さまざまな編集例について、 demo.ipynbを実行します。
コードベースは、EG3D、EG3D-GOAE、TRIPLANENETV2、BISENET、およびDEEP3DFACERECON_PYTORCH:次の優れた作品を利用しています。著者に提供してくれたことに感謝します。
@misc{bilecen2024referencebased,
title={Reference-Based 3D-Aware Image Editing with Triplanes},
author={Bahri Batuhan Bilecen and Yigit Yalin and Ning Yu and Aysegul Dundar},
year={2024},
eprint={2404.03632},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
著作権2024 Bilkent DLR。 Apacheライセンス、バージョン2.0(「ライセンス」)に基づいてライセンスされています。