ImagenHub: การประเมินมาตรฐานการประเมินแบบจำลองการสร้างภาพแบบมีเงื่อนไข
ICLR 2024

ImagenHub เป็นไลบรารีแบบครบวงจรเพื่อสร้างมาตรฐานการอนุมานและการประเมินผลของแบบจำลองการสร้างภาพแบบมีเงื่อนไขทั้งหมด
ติดตั้งจาก PYPI:
pip install imagen-hub
หรือสร้างจากแหล่งที่มา:
git clone https : // github . com / TIGER - AI - Lab / ImagenHub . git
cd ImagenHub
conda env create - f env_cfg / imagen_environment . yml
conda activate imagen
pip install - e .สำหรับนางแบบเช่น Dall-E, DreamEdit และ Blipdiffusion โปรดดูการตั้งค่าเพิ่มเติม
สำหรับบางรุ่น (การแพร่กระจายที่เสถียร, SDXL, COSXL ฯลฯ ) คุณต้องเข้าสู่ระบบผ่าน huggingface-cli
huggingface-cli loginเพื่อทำซ้ำการทดลองของเราที่รายงานในบทความ:
ตัวอย่างสำหรับการสร้างภาพที่นำด้วยข้อความ:
python3 benchmarking.py -cfg benchmark_cfg/ih_t2i.ymlโปรดทราบว่าโครงสร้างผลลัพธ์ที่คาดหวังจะเป็น:
result_root_folder
└── experiment_basename_folder
├── input (If applicable)
│ └── image_1.jpg ...
├── model1
│ └── image_1.jpg ...
├── model2
│ └── image_1.jpg ...
├── ...จากนั้นหลังจากเรียกใช้การทดสอบคุณสามารถเรียกใช้
python3 visualize.py --cfg benchmark_cfg/ih_t2i.yml ในการสร้างไฟล์ index.html สำหรับการสร้างภาพข้อมูล
ไฟล์จะมีลักษณะเช่นนี้ เราเป็นเจ้าภาพผลการทดลองของเราในพิพิธภัณฑ์ Imagen
import imagen_hub
model = imagen_hub . load ( "SDXL" )
image = model . infer_one_image ( prompt = "people reading pictures in a museum, watercolor" , seed = 1 )
image from imagen_hub . metrics import MetricLPIPS
from imagen_hub . utils import load_image , save_pil_image , get_concat_pil_images
def evaluate_one ( model , real_image , generated_image ):
score = model . evaluate ( real_image , generated_image )
print ( "====> Score : " , score )
image_I = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/input/sample_102724_1.jpg" )
image_O = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/DiffEdit/sample_102724_1.jpg" )
show_image = get_concat_pil_images ([ image_I , image_O ], 'h' )
model = MetricLPIPS ()
evaluate_one ( model , image_I , image_O ) # ====> Score : 0.11225218325853348
show_image เอกสารบทเรียนและ API นั้นโฮสต์บน imagenhub.readthedocs.io
ด้วยการปรับปรุงการวิจัยและการทำงานร่วมกัน ImageHub มีบทบาทสำคัญในการขับเคลื่อนด้านการสร้างภาพและการแก้ไข
เรารวมมากกว่า 30 รุ่นในการสังเคราะห์ภาพ ดูรายการทั้งหมดที่นี่:
| วิธี | สถานที่จัดงาน | พิมพ์ |
|---|---|---|
| การแพร่กระจายที่มั่นคง | - | การสร้างข้อความเป็นภาพ |
| การแพร่กระจายที่เสถียร xl | arxiv'23 | การสร้างข้อความเป็นภาพ |
| deepfloyd-if | - | การสร้างข้อความเป็นภาพ |
| โอเพ่น | - | การสร้างข้อความเป็นภาพ |
| Dall-e | - | การสร้างข้อความเป็นภาพ |
| Kandinsky | - | การสร้างข้อความเป็นภาพ |
| การพนัน | arxiv'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| cordspix2pix | cvpr'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| ความแตกต่าง | iclr'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| จินตนาการ | cvpr'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| การปั่นป่วน | iccv'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| sdedit | iclr'22 | การแก้ไขภาพที่นำด้วยข้อความ |
| พรอมต์ | iclr'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| text2live | eccv'22 | การแก้ไขภาพที่นำด้วยข้อความ |
| pix2pixzero | siggraph'23 | การแก้ไขภาพที่นำด้วยข้อความ |
| การร่อน | icml'22 | การแก้ไขภาพหน้ากากนำทาง |
| การแพร่กระจายแบบผสมผสาน | cvpr'22 | การแก้ไขภาพหน้ากากนำทาง |
| การแพร่กระจายที่เสถียรในการทาสี | - | การแก้ไขภาพหน้ากากนำทาง |
| การแพร่กระจายที่เสถียร xl inpainting | - | การแก้ไขภาพหน้ากากนำทาง |
| การส่งข้อความ | iclr'23 | การสร้างภาพที่ขับเคลื่อนด้วยหัวเรื่อง |
| การพูดออกมา | arxiv'23 | การสร้างภาพที่ขับเคลื่อนด้วยหัวเรื่อง |
| Dreambooth (+ Lora) | cvpr'23 | การสร้างภาพที่ขับเคลื่อนด้วยหัวเรื่อง |
| รูปถ่าย | arxiv'23 | การแก้ไขภาพที่ขับเคลื่อนด้วยหัวเรื่อง |
| DreamEdit | arxiv'23 | การแก้ไขภาพที่ขับเคลื่อนด้วยหัวเรื่อง |
| การแพร่กระจายแบบกำหนดเอง | cvpr'23 | รุ่นที่ขับเคลื่อน |
| การควบคุม | arxiv'23 | การสร้างภาพที่นำด้วยการควบคุม |
| การควบคุม | arxiv'23 | การสร้างภาพที่นำด้วยการควบคุม |
สนับสนุนการมีส่วนร่วมของชุมชน!
ImagenHub ยังอยู่ระหว่างการพัฒนา มีการเพิ่มโมเดลและคุณสมบัติเพิ่มเติมและเรายินดีต้อนรับการมีส่วนร่วมเพื่อช่วยให้ ImagenHub ดีขึ้น หากคุณต้องการมีส่วนร่วมโปรดตรวจสอบการสนับสนุน
เราเชื่อว่าทุกคนสามารถมีส่วนร่วมและสร้างความแตกต่าง ไม่ว่าจะเป็นการเขียนโค้ดแก้ไขข้อบกพร่องหรือเพียงแค่แบ่งปันความคิดเห็นการมีส่วนร่วมของคุณยินดีต้อนรับและชื่นชมอย่างแน่นอน?
และถ้าคุณชอบโครงการ แต่ก็ไม่มีเวลามีส่วนร่วมนั่นก็ไม่เป็นไร มีวิธีง่าย ๆ อื่น ๆ ในการสนับสนุนโครงการและแสดงความขอบคุณซึ่งเราจะมีความสุขมากเกี่ยวกับ:
- เป็นดาราโครงการ
- ทวีตเกี่ยวกับเรื่องนี้
- อ้างอิงโครงการนี้ใน readme ของโครงการของคุณ
- พูดถึงโครงการที่ Meetups ท้องถิ่นและบอกเพื่อน/เพื่อนร่วมงานของคุณ
ถาม: ฉันจะใช้วิธีการประเมินผลของคุณสำหรับวิธีการของฉันได้อย่างไร?
ตอบ: โปรดดูที่ https://imagenhub.readthedocs.io/en/latest/guidelines/humaneval.html
ถาม: ฉันจะเพิ่มวิธีการของฉันใน ImagenHub Codebase ได้อย่างไร
ตอบ: โปรดดูที่ https://imagenhub.readthedocs.io/en/latest/guidelines/custondel.html
ถาม: ฉันต้องการนำเสนอวิธีการของฉันใน ImageNmuseum!
ตอบ: โปรดดูที่ https://imagenhub.readthedocs.io/en/latest/guidelines/imagenmuseum.html
โปรดกรุณาอ้างอิงบทความของเราหากคุณใช้รหัสข้อมูลรุ่นหรือผลลัพธ์:
@inproceedings {
ku2024imagenhub,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
booktitle = { The Twelfth International Conference on Learning Representations } ,
year = { 2024 } ,
url = { https://openreview.net/forum?id=OuV9ZrkQlc }
} @article { ku2023imagenhub ,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
journal = { arXiv preprint arXiv:2310.01596 } ,
year = { 2023 }
}โปรดดูที่ ACKNOWLEDGEMENTS.MD
โครงการนี้เปิดตัวภายใต้ใบอนุญาต