[تم تحديث 2024/08/08]. رمز تم إصداره.
[من المخطط للإصدار في يوليو 2024]
تنفيذ Pytorch لمحولات الانتشار المقنعة عبر عرض لتوليف صورة الشخص ، ICML 2024.
المؤلفون : Trung X. Pham ، Zhang Kang ، و Chang D. Yoo.
مقدمة
x-mdpt (

مزايا الكفاءة

مقارنات مع أحدث الأفلام

أهداف متسقة

بيئة الإعداد
لقد اختبرنا مع Pytorch 1.12+CUDA11.6 ، باستخدام Docker.
conda create -n xmdpt python=3.8
conda activate xmdpt
pip install -r requirements.txt
إعداد مجموعة البيانات
تنزيل مجموعة بيانات DeepFashion ومعالجتها في تنسيق LMDB لسهولة التدريب والاستدلال. ارجع إلى PIDM (CVPR2023) لهذا LMDB. يجب أن تكون بنية البيانات على النحو التالي:
datasets/
|-- [ 38] deepfashion
| |-- [6.4M] train_pairs.txt
| |-- [2.1M] train.lst
| |-- [817K] test_pairs.txt
| |-- [182K] test.lst
| |-- [4.0K] 256-256
| | |-- [8.0K] lock.mdb
| | `-- [2.4G] data.mdb
| |-- [8.7M] pose.rar
| `-- [4.0K] 512-512
| |-- [8.0K] lock.mdb
| `-- [8.4G] data.mdb
| |-- [4.0K] pose
| | |-- [4.0K] WOMEN
| | | |-- [ 12K] Shorts
| | | | |-- [4.0K] id_00007890
| | | | | |-- [ 900] 04_4_full.txt
| | |-- [4.0K] MEN
...
تمرين
CUDA_VISIBLE_DEVICES=0 bash run_train.sh
بشكل افتراضي ، سيحفظ نقاط التفتيش لكل خطوات 10K. يمكنك استخدام ذلك للاستدلال على النحو التالي.
الاستدلال
قم بتنزيل جميع نقاط التفتيش و VAE (وحدة فك الترميز فقط المضبوطة) ووضعها في المكان الصحيح كما في الملف الافتراضي infer_xmdpt.py.
لمجموعة اختبار الأزياء العميقة ، قم بتشغيل ما يلي
CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py
سيحفظ عينات صورة الإخراج كما في Test_IMG من هذا الريبو.
للصورة التعسفية ، قم بتشغيل ما يلي (لم يتم تنفيذه)
CUDA_VISIBLE_DEVICES=0 python infer_xmdpt.py --image_path test.png
نماذج ما قبل
تم تدريب جميع نماذجنا واختبارها باستخدام وحدة معالجة الرسومات A100 (80 جيجابايت).
| نموذج | خطوة | دقة | fid | params | وقت الاستنتاج | وصلة |
|---|---|---|---|---|---|---|
| x-mdpt-s | 300K | 256x256 | 7.42 | 33.5m | 1.1s | وصلة |
| x-mdpt-b | 300K | 256x256 | 6.72 | 131.9m | 1.3s | وصلة |
| x-mdpt-l | 300K | 256x256 | 6.60 | 460.2 م | 3.1s | وصلة |
| vae | - | - | - | - | - | وصلة |
المخرجات المتوقعة

الاقتباس إذا كان X-MDPT مفيدًا أو ذا صلة بأبحاثك ، يرجى التكرم في إدراك مساهماتنا من خلال الإشارة إلى أوراقنا:
@inproceedings{pham2024crossview,
title={Cross-view Masked Diffusion Transformers for Person Image Synthesis},
author={Trung X. Pham and Kang Zhang and Chang D. Yoo},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=jEoIkNkqyc}
}
شكر وتقدير
تم دعم هذا العمل من قبل المعهد للحصول على معلومات لتخطيط وتقييم تكنولوجيا الاتصالات (IITP) الممولة من الحكومة الكورية (MSIT) (رقم 2021-0-01381 ، وتطوير الذكاء الاصطناعي من خلال فهم الفيديو والتعلم التعزيز ، وتطبيقاتها على التوفيق على التوالي ).
ريبو مفيد
شكراً لأعمال MDT (ICCV2023) و PIDM (CVPR2023) لنشر رموزهم.