xmdpt 다운로드 xmdpt 소스 코드 다운로드

xmdpt

기타 소스코드

1.0.0

다운로드

[2024/08/08 업데이트]. 코드가 출시되었습니다.

[2024 년 7 월에 출시 될 예정]

사람을위한 크로스 뷰 마스크 확산 변압기의 Pytorch 구현 이미지 합성, ICML 2024.

저자 : Trung X. Pham, Zhang Kang 및 Chang D. Yoo.

소개

x-mdpt ( $ 밑줄 {cross} $ -뷰 마스크 확산 예측 변압기)는 최초의 확산 변압기 기반 프레임 워크로, 포즈 유도 인간 이미지 생성을 위해 설계된 새로운 접근법입니다. X-MDPT는 모델 크기가 증가함에 따라 탁월한 확장 성과 성능을 보여 주면서 FID, SSIM 및 LPIPS 메트릭을 크게 향상시킵니다. 간단한 디자인에도 불구하고 프레임 워크는 심해 데이터 세트에서 최첨단 접근 방식을 능가하여 교육 효율성과 추론 속도가 우수합니다. Compact 33MB 모델은 7.42의 FIL을 달성하여 이전의 가장 효율적인 UNET 잠복 확산 접근법 POCOLD (8.07)를 능가합니다. $ 11 times $ 더 적은 매개 변수 (396MB). 최고의 모델은 매개 변수의 3 분의 2로 Sota Pixel 기반 확산 PIDM을 능가합니다. $ 5.43 times $ 더 빠른 추론.

효율성 장점

최첨단 비교

일관된 목표

설정 환경

Docker를 사용하여 Pytorch 1.12+Cuda11.6으로 테스트했습니다.

 conda create -n xmdpt python=3.8
conda activate xmdpt
pip install -r requirements.txt

데이터 세트를 준비하십시오

Deepfashion 데이터 세트를 다운로드하여 쉽게 교육 및 추론을 위해 LMDB 형식으로 처리합니다. 이 LMDB는 PIDM (CVPR2023)을 참조하십시오. 데이터 구조는 다음과 같습니다.

 datasets/
|-- [  38]  deepfashion
|   |-- [6.4M]  train_pairs.txt
|   |-- [2.1M]  train.lst
|   |-- [817K]  test_pairs.txt
|   |-- [182K]  test.lst
|   |-- [4.0K]  256-256
|   |   |-- [8.0K]  lock.mdb
|   |   `-- [2.4G]  data.mdb
|   |-- [8.7M]  pose.rar
|   `-- [4.0K]  512-512
|       |-- [8.0K]  lock.mdb
|       `-- [8.4G]  data.mdb
|   |-- [4.0K]  pose
|   |   |-- [4.0K]  WOMEN
|   |   |   |-- [ 12K]  Shorts
|   |   |   |   |-- [4.0K]  id_00007890
|   |   |   |   |   |-- [ 900]  04_4_full.txt
|   |   |-- [4.0K]  MEN
...

훈련

 CUDA_VISIBLE_DEVICES=0 bash run_train.sh

기본적으로 10k 단계마다 검사 점을 저장합니다. 아래와 같이 추론에 사용할 수 있습니다.

추론

모든 체크 포인트 및 VAE (미세 조정 전용 디코더)를 다운로드하여 기본 파일 LETER_XMDPT.PY에서와 같이 올바른 위치에 넣습니다.

깊은 패션 테스트 세트의 경우 다음을 실행하십시오.

 CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py

이 Repo의 Test_img에서와 같이 출력 이미지 샘플을 저장합니다.

임의의 이미지의 경우 다음을 실행하십시오 (구현되지 않음)

 CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py --image_path test.png

사전 예방 모델

모든 모델은 단일 A100 (80GB) GPU를 사용하여 교육 및 테스트되었습니다.

모델	단계	해결	버팀대	매개 변수	추론 시간	링크
x-mdpt-s	300K	256x256	7.42	33.5m	1.1S	링크
x-mdpt-b	300K	256x256	6.72	131.9m	1.3S	링크
x-mdpt-l	300K	256x256	6.60	460.2m	3.1S	링크
VAE	-	-	-	-	-	링크

예상 출력

인용 X-MDPT가 귀하의 연구와 유용하거나 관련이있는 경우, 논문을 인용하여 우리의 기여를 친절하게 인식하십시오.

 @inproceedings{pham2024crossview,
title={Cross-view Masked Diffusion Transformers for Person Image Synthesis},
author={Trung X. Pham and Kang Zhang and Chang D. Yoo},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=jEoIkNkqyc}
}

감사의 말

이 작업은 Institute for Information & Communications Technology Planning & Evaluation (MSIT) (MSIT) (No. 2021-0-01381, 비디오 이해 및 강화 학습, 실제 환경에 대한 응용 ) 및 (2022-0-00184에 대한 응용) 및 AI 기술의 개발 및 연구에 대한 연구를 통해 인과 관계 AI의 개발, IITP (Institute for Information & Communications Technology Planning & Evaluation) 보조금 (IITP) 보조금에 의해 지원되었습니다 .

유용한 repo

코드를 게시해 주신 MDT (ICCV2023) 및 PIDM (CVPR2023)의 멋진 작품에 감사드립니다.

확장하다

추가 정보