ImagenHub:标准化条件图像生成模型的评估
ICLR 2024

ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。
从PYPI安装:
pip install imagen-hub
或从来源构建:
git clone https : // github . com / TIGER - AI - Lab / ImagenHub . git
cd ImagenHub
conda env create - f env_cfg / imagen_environment . yml
conda activate imagen
pip install - e .对于Dall-E,Dreamedit和Blipdiffusion等模型,请参阅额外的设置
对于某些型号(稳定的扩散,SDXL,COSXL等),您需要通过huggingface-cli登录。
huggingface-cli login复制我们的实验在本文中报道:
文本指导图像生成的示例:
python3 benchmarking.py -cfg benchmark_cfg/ih_t2i.yml请注意,预期的输出结构将是:
result_root_folder
└── experiment_basename_folder
├── input (If applicable)
│ └── image_1.jpg ...
├── model1
│ └── image_1.jpg ...
├── model2
│ └── image_1.jpg ...
├── ...然后运行实验后,您可以运行
python3 visualize.py --cfg benchmark_cfg/ih_t2i.yml生成index.html文件以进行可视化。
该文件看起来像这样。我们在成像博物馆主持了实验结果。
import imagen_hub
model = imagen_hub . load ( "SDXL" )
image = model . infer_one_image ( prompt = "people reading pictures in a museum, watercolor" , seed = 1 )
image from imagen_hub . metrics import MetricLPIPS
from imagen_hub . utils import load_image , save_pil_image , get_concat_pil_images
def evaluate_one ( model , real_image , generated_image ):
score = model . evaluate ( real_image , generated_image )
print ( "====> Score : " , score )
image_I = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/input/sample_102724_1.jpg" )
image_O = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/DiffEdit/sample_102724_1.jpg" )
show_image = get_concat_pil_images ([ image_I , image_O ], 'h' )
model = MetricLPIPS ()
evaluate_one ( model , image_I , image_O ) # ====> Score : 0.11225218325853348
show_image 教程和API文档托管在ImagenHub.ReadThedocs.io上。
通过简化研究与协作,ImageHub在推动图像生成和编辑领域中起着关键作用。
我们在图像合成中包括了30多个模型。请参阅此处的完整列表:
| 方法 | 场地 | 类型 |
|---|---|---|
| 稳定的扩散 | - | 文本到图像生成 |
| 稳定的扩散XL | Arxiv'23 | 文本到图像生成 |
| deepfloyd-if | - | 文本到图像生成 |
| OpenJourney | - | 文本到图像生成 |
| dall-e | - | 文本到图像生成 |
| 康定斯基 | - | 文本到图像生成 |
| 魔术布鲁斯 | Arxiv'23 | 文本指导的图像编辑 |
| consendpix2pix | CVPR'23 | 文本指导的图像编辑 |
| 差异 | ICLR'23 | 文本指导的图像编辑 |
| 成像 | CVPR'23 | 文本指导的图像编辑 |
| 自行车 | ICCV'23 | 文本指导的图像编辑 |
| Sdedit | ICLR'22 | 文本指导的图像编辑 |
| 及时提出 | ICLR'23 | 文本指导的图像编辑 |
| text2live | ECCV'22 | 文本指导的图像编辑 |
| PIX2PIXZERO | Siggraph'23 | 文本指导的图像编辑 |
| 滑行 | ICML'22 | 面具指导的图像编辑 |
| 混合扩散 | CVPR'22 | 面具指导的图像编辑 |
| 稳定的扩散介绍 | - | 面具指导的图像编辑 |
| 稳定的扩散XL插入 | - | 面具指导的图像编辑 |
| TextualInversion | ICLR'23 | 主题驱动的图像生成 |
| Blip扩散 | Arxiv'23 | 主题驱动的图像生成 |
| Dreambooth(+ Lora) | CVPR'23 | 主题驱动的图像生成 |
| 摄影图 | Arxiv'23 | 主题驱动的图像编辑 |
| Dreamedit | Arxiv'23 | 主题驱动的图像编辑 |
| 自定义扩散 | CVPR'23 | 多主体驱动的一代 |
| 控制网 | Arxiv'23 | 控制指导的图像生成 |
| Unicontrol | Arxiv'23 | 控制指导的图像生成 |
鼓励社区贡献!
ImagenHub仍在开发中。将要添加更多的模型和功能,我们始终欢迎捐款,以帮助使ImagenHub变得更好。如果您想做出贡献,请查看贡献。
我们相信每个人都可以做出贡献并有所作为。无论是编写代码,修复错误还是简单地共享反馈,您的贡献绝对受到欢迎和赞赏?
而且,如果您喜欢这个项目,但没有时间做出贡献,那很好。还有其他简单的方法来支持该项目并表示感谢,我们也很高兴:
- 明星项目
- 鸣叫
- 在您项目的读数中参考该项目
- 在当地聚会上提及该项目,并告诉您的朋友/同事
问:如何将您的评估方法用于我的方法?
答:请参考https://imagenhub.readthedocs.io/en/latest/guidelines/humaneval.html
问:如何将我的方法添加到ImagenHub代码库中?
答:请参考https://imagenhub.readthedocs.io/en/latest/guidelines/custmostel.html
问:我想在ImagenMuseum上使用我的方法!
答:请参考https://imagenhub.readthedocs.io/en/latest/guidelines/imagenmuseum.html
如果您使用我们的代码,数据,模型或结果,请请我们的论文请访问:
@inproceedings {
ku2024imagenhub,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
booktitle = { The Twelfth International Conference on Learning Representations } ,
year = { 2024 } ,
url = { https://openreview.net/forum?id=OuV9ZrkQlc }
} @article { ku2023imagenhub ,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
journal = { arXiv preprint arXiv:2310.01596 } ,
year = { 2023 }
}请参考becendgements.md
该项目根据许可证发布。