Download ImagenHub - download do código -fonte ImagenHub

ImagenHub

Outro código-fonte

v0.3.0

Baixar

? Aste imagenhub

ImageHub: padronizando a avaliação de modelos de geração de imagens condicionais
ICLR 2024

O ImageHub é uma biblioteca única para padronizar a inferência e avaliação de todos os modelos de geração de imagens condicionais.

Definimos 7 tarefas proeminentes e selecionamos 7 conjuntos de dados de avaliação de alta qualidade para cada tarefa.
Construímos um pipeline de inferência unificada para garantir uma comparação justa. Atualmente, apoiamos cerca de 30 modelos.
Projetamos duas pontuações de avaliação humana, ou seja, consistência semântica e qualidade perceptiva, juntamente com diretrizes abrangentes para avaliar imagens geradas.
Fornecemos código para modelos de visualização, automática e Amazon Mechanical Turk.

[Página do projeto] [Documentação] [? Arxiv] [? Conjuntos de dados] [? ️ ImagenMuseum] [⚔️ Genai-Arena]

? Notícias

2024 10 de junho: o papel de Genai-Arena está fora. É apresentado nos papéis diários da Huggingface.
2024 07 de junho: Imagenhub está finalmente no Pypi! Cheque: https://pypi.org/project/imagen-hub/
2024 07 de abril: Lançamos classificações de avaliação humana de acordo com o nosso mais recente artigo do ARXIV.
2024 14 de fevereiro: checkout ⚔️ Genai-Arena ⚔️: Benchmarking Visual Generative Models in the Wild!
2024 15 de janeiro: Artigo aceito no ICLR 2024! Vejo você em Viena!
2024 7 de janeiro: Atualizamos a Diretriz de Avaliação Humana, Submissão de ImagenMuseum! Agora, damos as boas -vindas aos pesquisadores em enviar seu método no ImagenMuseum com um esforço mínimo.
2023 23 de outubro: versão 0.1.0 Lançado! A documentação do ImageHub agora disponível!
2023 19 de outubro: Código lançado. Documentos em construção.
2023 13 de outubro: Lançamos o Imagen Museum, uma página de visualização para todos os modelos do Imagenhub!
2023 4 de outubro: Nosso artigo é apresentado em papéis diários Huggingface!
2023 2 de outubro: papel disponível no Arxiv. Código em breve!

? Índice

Instalação
? ‍? Comece
Documentação
? Filosofia
? Contribuindo
Citação
? Reconhecimento
? Licença

Instalação?

Instale de Pypi:

 pip install imagen-hub

Ou construir a partir da fonte:

 git clone https : // github . com / TIGER - AI - Lab / ImagenHub . git
cd ImagenHub
conda env create - f env_cfg / imagen_environment . yml
conda activate imagen
pip install - e .

Para modelos como Dall-E, Dreamedit e Blipdiffusion, consulte a configuração extra

Para alguns modelos (difusão estável, sdxl, cosxl etc.), você precisa fazer login através do huggingface-cli .

huggingface-cli login

? ‍? Começar?

Benchmarking

Para reproduzir nosso experimento relatado no artigo:

Exemplo de geração de imagem guiada por texto:

python3 benchmarking.py -cfg benchmark_cfg/ih_t2i.yml

Observe que a estrutura de saída esperada seria:

result_root_folder
└── experiment_basename_folder
    ├── input (If applicable)
    │   └── image_1.jpg ...
    ├── model1
    │   └── image_1.jpg ...
    ├── model2
    │   └── image_1.jpg ...
    ├── ...

Depois de executar o experimento, você pode correr

python3 visualize.py --cfg benchmark_cfg/ih_t2i.yml

Para produzir um arquivo index.html para visualização.

O arquivo seria algo assim. Hospedamos os resultados do nosso experimento no Imagen Museum.

Inferindo um modelo

 import imagen_hub

model = imagen_hub . load ( "SDXL" )
image = model . infer_one_image ( prompt = "people reading pictures in a museum, watercolor" , seed = 1 )
image

Executando métricas

 from imagen_hub . metrics import MetricLPIPS
from imagen_hub . utils import load_image , save_pil_image , get_concat_pil_images

def evaluate_one ( model , real_image , generated_image ):
  score = model . evaluate ( real_image , generated_image )
  print ( "====> Score : " , score )

image_I = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/input/sample_102724_1.jpg" )
image_O = load_image ( "https://chromaica.github.io/Museum/ImagenHub_Text-Guided_IE/DiffEdit/sample_102724_1.jpg" )
show_image = get_concat_pil_images ([ image_I , image_O ], 'h' )

model = MetricLPIPS ()
evaluate_one ( model , image_I , image_O ) # ====> Score :  0.11225218325853348

show_image

Documentação?

Os tutoriais e a documentação da API estão hospedados no imagenhub.readthedocs.io.

? Filosofia?

Ao simplificar a pesquisa e a colaboração, o ImageHub desempenha um papel fundamental na promoção do campo da geração e edição de imagens.

Pureza da avaliação: Garantimos uma avaliação justa e consistente para todos os modelos, eliminando vieses.
Roteiro de pesquisa: Ao definir tarefas e curar os conjuntos de dados, fornecemos uma direção clara para os pesquisadores.
Colaboração aberta: nossa plataforma promove a troca e a cooperação de tecnologias relacionadas, reunindo mentes e inovações.

Modelos implementados

Incluímos mais de 30 modelos na síntese de imagem. Veja a lista completa aqui:

Modelos suportados: #1
Métricas suportadas: #6

Método	Local	Tipo
Difusão estável	-	Geração de texto para imagem
Difusão estável xl	arxiv'23	Geração de texto para imagem
Deepfloyd-if	-	Geração de texto para imagem
OpenJourney	-	Geração de texto para imagem
Dall-e	-	Geração de texto para imagem
Kandinsky	-	Geração de texto para imagem
Magicbrush	arxiv'23	Edição de imagem guiada por texto
Instructpix2pix	CVPR'23	Edição de imagem guiada por texto
Difdit	Iclr'23	Edição de imagem guiada por texto
Imagic	CVPR'23	Edição de imagem guiada por texto
Cicllediffusion	ICCV'23	Edição de imagem guiada por texto
Sdedit	Iclr'22	Edição de imagem guiada por texto
Pronta para promover	Iclr'23	Edição de imagem guiada por texto
Text2Live	ECCV'22	Edição de imagem guiada por texto
Pix2pixzero	Siggraph'23	Edição de imagem guiada por texto
DESLIZAR	ICML'22	Edição de imagem guiada por máscara
Difusão combinada	CVPR'22	Edição de imagem guiada por máscara
Difusão estável INPINATIVA	-	Edição de imagem guiada por máscara
Difusão estável XL Inpainting	-	Edição de imagem guiada por máscara
TextualInversion	Iclr'23	Geração de imagem acionada por sujeitos
Difusão de blip	arxiv'23	Geração de imagem acionada por sujeitos
Dreambooth (+ Lora)	CVPR'23	Geração de imagem acionada por sujeitos
Photoswap	arxiv'23	Edição de imagem orientada por sujeitos
Dreamedit	arxiv'23	Edição de imagem orientada por sujeitos
Difusão personalizada	CVPR'23	Geração orientada por vários sujeitos
Controlnet	arxiv'23	Geração de imagem guiada por controle
Unicontrol	arxiv'23	Geração de imagem guiada por controle

Funcionalidade abrangente

Métricas comuns para Genai
Ferramenta de visualização
Amazon Mechanical Turk Modelos (em breve)

Padrão de engenharia de software de alta qualidade.

Documentação
Dicas de tipo
Cobertura de código (em breve)

? Contribuindo?

Para a comunidade

As contribuições da comunidade são incentivadas!

Imagenhub ainda está em desenvolvimento. Mais modelos e recursos serão adicionados e sempre recebemos contribuições para ajudar a melhorar o ImageHub. Se você deseja contribuir, confira contribuindo.md.

Acreditamos que todos podem contribuir e fazer a diferença. Seja escrevendo código, corrigindo bugs? Ou simplesmente compartilhando feedback, suas contribuições são definitivamente bem -vindas e apreciadas?

E se você gosta do projeto, mas simplesmente não tem tempo para contribuir, tudo bem. Existem outras maneiras fáceis de apoiar o projeto e mostrar sua apreciação, sobre a qual também ficaríamos muito felizes:
Estrela o projeto
Tweet sobre isso
Consulte este projeto no readme do seu projeto
Mencione o projeto em encontros locais e diga aos seus amigos/colegas

Para os pesquisadores:

P: Como posso usar seu método de avaliação para o meu método?
R: Consulte https://imagenhub.readthedocs.io/en/latest/guidelines/humaneval.html
P: Como posso adicionar meu método ao ImageHub CodeBase?
R: Consulte https://imagenhub.readthedocs.io/en/latest/guidelines/custododel.html
P: Quero apresentar meu método no ImagenMuseum!
R: Consulte https://imagenhub.readthedocs.io/en/latest/guidelines/imagenmuseum.html

Citação?

Por favor, cite nosso artigo se você usar nosso código, dados, modelos ou resultados:

 @inproceedings {
ku2024imagenhub,
title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
booktitle = { The Twelfth International Conference on Learning Representations } ,
year = { 2024 } ,
url = { https://openreview.net/forum?id=OuV9ZrkQlc }
}

 @article { ku2023imagenhub ,
  title = { ImagenHub: Standardizing the evaluation of conditional image generation models } ,
  author = { Max Ku and Tianle Li and Kai Zhang and Yujie Lu and Xingyu Fu and Wenwen Zhuang and Wenhu Chen } ,
  journal = { arXiv preprint arXiv:2310.01596 } ,
  year = { 2023 }
}