ImagenHub:標準化條件圖像生成模型的評估
ICLR 2024

ImagenHub是一個一站式庫,用於標準化所有條件圖像生成模型的推理和評估。
從PYPI安裝:
pip install imagen-hub
或從來源構建:
git clone https : // github . com / TIGER - AI - Lab / ImagenHub . git
cd ImagenHub
conda env create - f env_cfg / imagen_environment . yml
conda activate imagen
pip install - e .對於Dall-E,Dreamedit和Blipdiffusion等模型,請參閱額外的設置
對於某些型號(穩定的擴散,SDXL,COSXL等),您需要通過huggingface-cli登錄。
huggingface-cli login複製我們的實驗在本文中報導:
文本指導圖像生成的示例:
python3 benchmarking.py -cfg benchmark_cfg/ih_t2i.yml請注意,預期的輸出結構將是:
result_root_folder
└── experiment_basename_folder
├── input (If applicable)
│ └── image_1.jpg ...
├── model1
│ └── image_1.jpg ...
├── model2
│ └── image_1.jpg ...
├── ...然後運行實驗後,您可以運行
python3 visualize.py --cfg benchmark_cfg/ih_t2i.yml生成index.html文件以進行可視化。
該文件看起來像這樣。我們在成像博物館主持了實驗結果。
import imagen_hub
model = imagen_hub . load ( "SDXL" )
image = model . infer_one_image ( prompt = "people reading pictures in a museum, watercolor" , seed = 1 )
image from imagen_hub . metrics import MetricLPIPS
from imagen_hub . utils import load_image , save_pil_image , get_concat_pil_images
def evaluate_one ( model , real_image , generated_image ):
score = model . evaluate ( real_image , generated_image )
print ( "====> Score : " , score )
image_I = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/input/sample_102724_1.jpg" )
image_O = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/DiffEdit/sample_102724_1.jpg" )
show_image = get_concat_pil_images ([ image_I , image_O ], 'h' )
model = MetricLPIPS ()
evaluate_one ( model , image_I , image_O ) # ====> Score : 0.11225218325853348
show_image 教程和API文檔託管在ImagenHub.ReadThedocs.io上。
通過簡化研究與協作,ImageHub在推動圖像生成和編輯領域中起著關鍵作用。
我們在圖像合成中包括了30多個模型。請參閱此處的完整列表:
| 方法 | 場地 | 類型 |
|---|---|---|
| 穩定的擴散 | - | 文本到圖像生成 |
| 穩定的擴散XL | Arxiv'23 | 文本到圖像生成 |
| deepfloyd-if | - | 文本到圖像生成 |
| OpenJourney | - | 文本到圖像生成 |
| dall-e | - | 文本到圖像生成 |
| 康丁斯基 | - | 文本到圖像生成 |
| 魔術布魯斯 | Arxiv'23 | 文本指導的圖像編輯 |
| consendpix2pix | CVPR'23 | 文本指導的圖像編輯 |
| 差異 | ICLR'23 | 文本指導的圖像編輯 |
| 成像 | CVPR'23 | 文本指導的圖像編輯 |
| 自行車 | ICCV'23 | 文本指導的圖像編輯 |
| Sdedit | ICLR'22 | 文本指導的圖像編輯 |
| 及時提出 | ICLR'23 | 文本指導的圖像編輯 |
| text2live | ECCV'22 | 文本指導的圖像編輯 |
| PIX2PIXZERO | Siggraph'23 | 文本指導的圖像編輯 |
| 滑行 | ICML'22 | 面具指導的圖像編輯 |
| 混合擴散 | CVPR'22 | 面具指導的圖像編輯 |
| 穩定的擴散介紹 | - | 面具指導的圖像編輯 |
| 穩定的擴散XL插入 | - | 面具指導的圖像編輯 |
| TextualInversion | ICLR'23 | 主題驅動的圖像生成 |
| Blip擴散 | Arxiv'23 | 主題驅動的圖像生成 |
| Dreambooth(+ Lora) | CVPR'23 | 主題驅動的圖像生成 |
| 攝影圖 | Arxiv'23 | 主題驅動的圖像編輯 |
| Dreamedit | Arxiv'23 | 主題驅動的圖像編輯 |
| 自定義擴散 | CVPR'23 | 多主體驅動的一代 |
| 控製網 | Arxiv'23 | 控制指導的圖像生成 |
| Unicontrol | Arxiv'23 | 控制指導的圖像生成 |
鼓勵社區貢獻!
ImagenHub仍在開發中。將要添加更多的模型和功能,我們始終歡迎捐款,以幫助使ImagenHub變得更好。如果您想做出貢獻,請查看貢獻。
我們相信每個人都可以做出貢獻並有所作為。無論是編寫代碼,修復錯誤還是簡單地共享反饋,您的貢獻絕對受到歡迎和讚賞?
而且,如果您喜歡這個項目,但沒有時間做出貢獻,那很好。還有其他簡單的方法來支持該項目並表示感謝,我們也很高興:
- 明星項目
- 鳴叫
- 在您項目的讀數中參考該項目
- 在當地聚會上提及該項目,並告訴您的朋友/同事
問:如何將您的評估方法用於我的方法?
答:請參考https://imagenhub.readthedocs.io/en/latest/guidelines/humaneval.html
問:如何將我的方法添加到ImagenHub代碼庫中?
答:請參考https://imagenhub.readthedocs.io/en/latest/guidelines/custmostel.html
問:我想在ImagenMuseum上使用我的方法!
答:請參考https://imagenhub.readthedocs.io/en/latest/guidelines/imagenmuseum.html
如果您使用我們的代碼,數據,模型或結果,請請我們的論文請訪問:
@inproceedings {
ku2024imagenhub,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
booktitle = { The Twelfth International Conference on Learning Representations } ,
year = { 2024 } ,
url = { https://openreview.net/forum?id=OuV9ZrkQlc }
} @article { ku2023imagenhub ,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
journal = { arXiv preprint arXiv:2310.01596 } ,
year = { 2023 }
}請參考becendgements.md
該項目根據許可證發布。