ImagenHub: توحيد تقييم نماذج توليد الصور الشرطية
ICLR 2024

ImagenHub هي مكتبة شاملة واحدة لتوحيد استدلال وتقييم جميع نماذج توليد الصور الشرطية.
التثبيت من PYPI:
pip install imagen-hub
أو بناء من المصدر:
git clone https : // github . com / TIGER - AI - Lab / ImagenHub . git
cd ImagenHub
conda env create - f env_cfg / imagen_environment . yml
conda activate imagen
pip install - e .بالنسبة لنماذج مثل Dall-E و Dreamedit و BlipDiffusion ، يرجى الاطلاع على إعداد إضافي
بالنسبة لبعض النماذج (الانتشار المستقر ، SDXL ، COSXL ، إلخ) ، تحتاج إلى تسجيل الدخول من خلال huggingface-cli .
huggingface-cli loginلإعادة إنتاج تجربتنا المبلغ عنها في الورقة:
مثال على توليد الصور الموجهة النص:
python3 benchmarking.py -cfg benchmark_cfg/ih_t2i.ymlلاحظ أن بنية الخرج المتوقعة ستكون:
result_root_folder
└── experiment_basename_folder
├── input (If applicable)
│ └── image_1.jpg ...
├── model1
│ └── image_1.jpg ...
├── model2
│ └── image_1.jpg ...
├── ...ثم بعد تشغيل التجربة ، يمكنك الجري
python3 visualize.py --cfg benchmark_cfg/ih_t2i.yml لإنتاج ملف index.html للتصور.
سوف يبدو الملف مثل هذا شيء مثل هذا. استضفنا نتائج تجربتنا على متحف Imagen.
import imagen_hub
model = imagen_hub . load ( "SDXL" )
image = model . infer_one_image ( prompt = "people reading pictures in a museum, watercolor" , seed = 1 )
image from imagen_hub . metrics import MetricLPIPS
from imagen_hub . utils import load_image , save_pil_image , get_concat_pil_images
def evaluate_one ( model , real_image , generated_image ):
score = model . evaluate ( real_image , generated_image )
print ( "====> Score : " , score )
image_I = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/input/sample_102724_1.jpg" )
image_O = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/DiffEdit/sample_102724_1.jpg" )
show_image = get_concat_pil_images ([ image_I , image_O ], 'h' )
model = MetricLPIPS ()
evaluate_one ( model , image_I , image_O ) # ====> Score : 0.11225218325853348
show_image يتم استضافة دروس ووثائق API على ImageNHub.ReadTheDocs.io.
من خلال تبسيط البحث والتعاون ، يلعب ImageHub دورًا محوريًا في دفع مجال توليد الصور والتحرير.
قمنا بتضمين أكثر من 30 نموذجًا في تخليق الصور. انظر القائمة الكاملة هنا:
| طريقة | مكان | يكتب |
|---|---|---|
| انتشار مستقر | - | توليد نص إلى صورة |
| انتشار مستقر XL | arxiv'23 | توليد نص إلى صورة |
| Deepfloyd-if | - | توليد نص إلى صورة |
| Openjourney | - | توليد نص إلى صورة |
| دال | - | توليد نص إلى صورة |
| كاندينسكي | - | توليد نص إلى صورة |
| MagicBrush | arxiv'23 | تحرير الصور الموجهة النص |
| instructPix2pix | CVPR'23 | تحرير الصور الموجهة النص |
| diffedit | ICLR'23 | تحرير الصور الموجهة النص |
| صور | CVPR'23 | تحرير الصور الموجهة النص |
| cyclediffusion | ICCV'23 | تحرير الصور الموجهة النص |
| sdedit | ICLR'22 | تحرير الصور الموجهة النص |
| موجه إلى الافتراض | ICLR'23 | تحرير الصور الموجهة النص |
| text2live | ECCV'22 | تحرير الصور الموجهة النص |
| PIX2Pixzero | siggraph'23 | تحرير الصور الموجهة النص |
| انزلاق | ICML'22 | تحرير الصور الموجهة قناع |
| انتشار مختلط | CVPR'22 | تحرير الصور الموجهة قناع |
| انتشار مستقر | - | تحرير الصور الموجهة قناع |
| انتشار مستقر xl inpainting | - | تحرير الصور الموجهة قناع |
| التحويل النصية | ICLR'23 | توليد الصور التي يحركها الموضوع |
| انتشار وطف | arxiv'23 | توليد الصور التي يحركها الموضوع |
| Dreambooth (+ لورا) | CVPR'23 | توليد الصور التي يحركها الموضوع |
| Photoswap | arxiv'23 | تحرير الصورة التي يحركها الموضوع |
| Dreamedit | arxiv'23 | تحرير الصورة التي يحركها الموضوع |
| انتشار مخصص | CVPR'23 | جيل متعدد الموضوعات |
| Controlnet | arxiv'23 | توليد الصور الموجهة للسيطرة |
| Unicontrol | arxiv'23 | توليد الصور الموجهة للسيطرة |
يتم تشجيع مساهمات المجتمع!
ImagenHub لا يزال قيد التطوير. ستتم إضافة المزيد من النماذج والميزات ونرحب دائمًا بالمساهمات للمساعدة في تحسين ImagenHub. إذا كنت ترغب في المساهمة ، يرجى مراجعة المساهمة.
نحن نعتقد أنه يمكن للجميع المساهمة وإحداث فرق. سواء أكان ذلك كودًا ، أو إصلاح الأخطاء؟ ، أو مجرد مشاركة التعليقات ، فإن مساهماتك هي بالتأكيد موضع ترحيب وتقدير؟
وإذا كنت تحب المشروع ، ولكن ليس لديك وقت للمساهمة ، فلا بأس بذلك. هناك طرق أخرى سهلة لدعم المشروع وإظهار تقديرك ، والتي سنكون سعداء للغاية بما يلي:
- نجم المشروع
- تغريدة حول هذا الموضوع
- راجع هذا المشروع في ReadMe لمشروعك
- اذكر المشروع في Meetups المحلية وأخبر أصدقائك/زملائك
س: كيف يمكنني استخدام طريقة التقييم الخاصة بك لطريقتي؟
ج: يرجى الرجوع إلى https://imagenhub.readthedocs.io/en/latest/guidelines/humaneval.html
س: كيف يمكنني إضافة طريقتي إلى قاعدة كود ImagenHub؟
ج: يرجى الرجوع إلى https://imagenhub.readthedocs.io/en/latest/guidelines/custommel.html
س: أريد أن أعرض طريقتي على ImagenMuseum!
ج: يرجى الرجوع إلى https://imagenhub.readthedocs.io/en/latest/guidelines/imagenmuseum.html
يرجى التكرم في ورقتنا إذا كنت تستخدم التعليمات البرمجية أو البيانات أو النماذج أو النتائج:
@inproceedings {
ku2024imagenhub,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
booktitle = { The Twelfth International Conference on Learning Representations } ,
year = { 2024 } ,
url = { https://openreview.net/forum?id=OuV9ZrkQlc }
} @article { ku2023imagenhub ,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
journal = { arXiv preprint arXiv:2310.01596 } ,
year = { 2023 }
}يرجى الرجوع إلى الاعتراف. md
يتم إصدار هذا المشروع بموجب الترخيص.