
Бахри Батухан Билецен, Игит Ялин, Нин Ю и Айсегул Дандар
Генеративные состязательные сети (GAN) стали мощными инструментами для высококачественного генерации изображений и реального редактирования изображений, манипулируя своими скрытыми пространствами. Недавние достижения в GANS включают модели 3D-ориентации, такие как EG3D, которые имеют эффективные архитектуры на основе триплана, способные реконструировать 3D-геометрию из отдельных изображений. Тем не менее, ограниченное внимание было уделено предоставлению интегрированной структуры для 3D-высококачественного редактирования изображений. Это исследование рассматривает этот пробел, изучая и демонстрируя эффективность пространства триплана для передовых справочных изменений. Наш новый подход объединяет кодирование, автоматическую локализацию, пространственную распущенность триплейнских функций и обучение слияниям для достижения желаемых изменений. Кроме того, наша структура демонстрирует универсальность и надежность в различных областях, расширяя ее эффективность на редактирование лица животных, частично стилизованные редакторы, такие как мультяшные лица, редактирование одежды для всего тела и 360-градусные резервы. Наш метод показывает современную производительность по сравнению с соответствующим скрытым направлением, текстом и диффузией 2D и 3D с 3D и 3D, как качественно, так и количественно.
git clone --recursive https://github.com/three-bee/triplane_edit.gitcd ./triplane_edit && pip install -r requirements.txt Мы следим за подготовкой набора данных EG3D для извлечения позы и выравнивания лица. Убедитесь, что вы не пропускаете настройку Deep3dfacerecon_pytorch. Затем запустите код предварительной обработки:
cd ./dataset_preprocessing/ffhq
python preprocess_in_the_wild.py --indir=YOUR_INPUT_IMAGE_FOLDER
Это будет генерировать выровненные изображения и dataset.json , содержащий матрицы камеры в YOUR_INPUT_IMAGE_FOLDER/preprocessed/ .
Мы включили примеры изображений и позы в ./example/ .
Поместите все загруженные файлы в ./checkpoints/ .
| Сеть | Имя файла |
|---|---|
| EG3D RebAlanced Generator | ffhqrebalanced512-128.pkl |
| Eg3d-Goae Encoders | encoder_FFHQ.pt & afa_FFHQ.pt |
| Монколенный фьюжн -энкодер | encoder_FFHQ_finetuned.pt |
| Бисенет сегментация | 79999_iter.pth |
| IR-SE50 для потери удостоверения личности | model_ir_se50.pth |
Запустите demo.ipynb для различных примеров редактирования.
Наша кодовая база использует следующие великие работы: eg3d, eg3d-goae, triplanenetv2, bisenet и deep3dfacerecon_pytorch. Мы благодарим авторов за предоставление их.
@misc{bilecen2024referencebased,
title={Reference-Based 3D-Aware Image Editing with Triplanes},
author={Bahri Batuhan Bilecen and Yigit Yalin and Ning Yu and Aysegul Dundar},
year={2024},
eprint={2404.03632},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Copyright 2024 Bilkent Dlr. Лицензирован по лицензии Apache, версия 2.0 («Лицензия»).