
Bahri Batuhan Bilcen, Yigit Yalin, Ning Yu e Aysegul Dundar
Redes adversárias generativas (GANS) surgiram como ferramentas poderosas para geração de imagens de alta qualidade e edição de imagens reais, manipulando seus espaços latentes. Os avanços recentes em Gans incluem modelos de reconhecimento em 3D, como o EG3D, que apresentam arquiteturas eficientes baseadas em triplaneses capazes de reconstruir a geometria 3D a partir de imagens únicas. No entanto, foi dada atenção limitada ao fornecimento de uma estrutura integrada para edição de imagem com base em 3D, de alta qualidade e baseada em referência. Este estudo aborda essa lacuna explorando e demonstrando a eficácia do espaço triplo para edições avançadas baseadas em referência. Nossa nova abordagem integra a codificação, a localização automática, a desvencoração espacial de recursos triplaneses e o aprendizado de fusão para obter as edições desejadas. Além disso, nossa estrutura demonstra versatilidade e robustez em vários domínios, estendendo sua eficácia a edições de rosto de animais, edições parcialmente estilizadas, como faces de desenhos animados, edições de roupas de corpo inteiro e edições de cabeça de 360 graus. Nosso método mostra o desempenho de última geração sobre a direção latente relevante, o texto e a difusão 2D e do 3D, e os métodos de GaN, com consciência 3D, ambos qualitativa e quantitativa.
git clone --recursive https://github.com/three-bee/triplane_edit.gitcd ./triplane_edit && pip install -r requirements.txt Seguimos a preparação do conjunto de dados da EG3D para extração de pose e alinhamento de rosto. Certifique -se de não pular a configuração de Deep3DFACERECON_PYTORCH. Em seguida, execute o código de pré-processamento no wild:
cd ./dataset_preprocessing/ffhq
python preprocess_in_the_wild.py --indir=YOUR_INPUT_IMAGE_FOLDER
Isso gerará imagens alinhadas e um dataset.json contendo matrizes da câmera em YOUR_INPUT_IMAGE_FOLDER/preprocessed/ .
Incluímos exemplos de imagens e poses em ./example/ .
Coloque todos os arquivos baixados em ./checkpoints/ .
| Rede | Nome do arquivo |
|---|---|
| EG3D gerador reequilibrado | ffhqrebalanced512-128.pkl |
| EG3D-GOAE Codificadores | encoder_FFHQ.pt & afa_FFHQ.pt |
| Codificador de fusão Finetuned | encoder_FFHQ_finetuned.pt |
| Segmentação de Bisenet | 79999_iter.pth |
| IR-SE50 para perda de identificação | model_ir_se50.pth |
Run demo.ipynb para vários exemplos de edição.
Nossa base de código utiliza os seguintes grandes obras: EG3D, EG3D-GOAE, TriplaneNenetv2, BiseNet e Deep3Dfacerecon_Pytorch. Agradecemos aos autores por fornecê -los.
@misc{bilecen2024referencebased,
title={Reference-Based 3D-Aware Image Editing with Triplanes},
author={Bahri Batuhan Bilecen and Yigit Yalin and Ning Yu and Aysegul Dundar},
year={2024},
eprint={2404.03632},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Copyright 2024 Bilkent Dlr. Licenciado sob a licença Apache, versão 2.0 (a "licença").