[2024/08/08 업데이트]. 코드가 출시되었습니다.
[2024 년 7 월에 출시 될 예정]
사람을위한 크로스 뷰 마스크 확산 변압기의 Pytorch 구현 이미지 합성, ICML 2024.
저자 : Trung X. Pham, Zhang Kang 및 Chang D. Yoo.
소개
x-mdpt (

효율성 장점

최첨단 비교

일관된 목표

설정 환경
Docker를 사용하여 Pytorch 1.12+Cuda11.6으로 테스트했습니다.
conda create -n xmdpt python=3.8
conda activate xmdpt
pip install -r requirements.txt
데이터 세트를 준비하십시오
Deepfashion 데이터 세트를 다운로드하여 쉽게 교육 및 추론을 위해 LMDB 형식으로 처리합니다. 이 LMDB는 PIDM (CVPR2023)을 참조하십시오. 데이터 구조는 다음과 같습니다.
datasets/
|-- [ 38] deepfashion
| |-- [6.4M] train_pairs.txt
| |-- [2.1M] train.lst
| |-- [817K] test_pairs.txt
| |-- [182K] test.lst
| |-- [4.0K] 256-256
| | |-- [8.0K] lock.mdb
| | `-- [2.4G] data.mdb
| |-- [8.7M] pose.rar
| `-- [4.0K] 512-512
| |-- [8.0K] lock.mdb
| `-- [8.4G] data.mdb
| |-- [4.0K] pose
| | |-- [4.0K] WOMEN
| | | |-- [ 12K] Shorts
| | | | |-- [4.0K] id_00007890
| | | | | |-- [ 900] 04_4_full.txt
| | |-- [4.0K] MEN
...
훈련
CUDA_VISIBLE_DEVICES=0 bash run_train.sh
기본적으로 10k 단계마다 검사 점을 저장합니다. 아래와 같이 추론에 사용할 수 있습니다.
추론
모든 체크 포인트 및 VAE (미세 조정 전용 디코더)를 다운로드하여 기본 파일 LETER_XMDPT.PY에서와 같이 올바른 위치에 넣습니다.
깊은 패션 테스트 세트의 경우 다음을 실행하십시오.
CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py
이 Repo의 Test_img에서와 같이 출력 이미지 샘플을 저장합니다.
임의의 이미지의 경우 다음을 실행하십시오 (구현되지 않음)
CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py --image_path test.png
사전 예방 모델
모든 모델은 단일 A100 (80GB) GPU를 사용하여 교육 및 테스트되었습니다.
| 모델 | 단계 | 해결 | 버팀대 | 매개 변수 | 추론 시간 | 링크 |
|---|---|---|---|---|---|---|
| x-mdpt-s | 300K | 256x256 | 7.42 | 33.5m | 1.1S | 링크 |
| x-mdpt-b | 300K | 256x256 | 6.72 | 131.9m | 1.3S | 링크 |
| x-mdpt-l | 300K | 256x256 | 6.60 | 460.2m | 3.1S | 링크 |
| VAE | - | - | - | - | - | 링크 |
예상 출력

인용 X-MDPT가 귀하의 연구와 유용하거나 관련이있는 경우, 논문을 인용하여 우리의 기여를 친절하게 인식하십시오.
@inproceedings{pham2024crossview,
title={Cross-view Masked Diffusion Transformers for Person Image Synthesis},
author={Trung X. Pham and Kang Zhang and Chang D. Yoo},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=jEoIkNkqyc}
}
감사의 말
이 작업은 Institute for Information & Communications Technology Planning & Evaluation (MSIT) (MSIT) (No. 2021-0-01381, 비디오 이해 및 강화 학습, 실제 환경에 대한 응용 ) 및 (2022-0-00184에 대한 응용) 및 AI 기술의 개발 및 연구에 대한 연구를 통해 인과 관계 AI의 개발, IITP (Institute for Information & Communications Technology Planning & Evaluation) 보조금 (IITP) 보조금에 의해 지원되었습니다 .
유용한 repo
코드를 게시해 주신 MDT (ICCV2023) 및 PIDM (CVPR2023)의 멋진 작품에 감사드립니다.