Download do TokenCompose - TokenCompose Download do código -fonte

TokenCompose

Outro código-fonte

1.0.0

Baixar

? TokEncompose: difusão de texto a imagem com supervisão no nível do token

Zirui Wang ^{1, 3} · Zhizhou Sha ^{2, 3} · Zheng Ding ³ · Yilin Wang ^{2, 3} · Zhuowen tu ³

¹ Universidade de Princeton · ² Tsinghua University · ³ Universidade da Califórnia, San Diego

CVPR 2024

Projeto feito enquanto Zirui Wang, Zhizhou Sha e Yilin Wang estagiaram na UC San Diego.

Página do projeto | arxiv | X (Twitter)

Atualizações

Se você usar nosso método e/ou modelo para o seu projeto de pesquisa, ficaremos felizes em fornecer referência cruzada aqui nas atualizações. :)

[04/04/2024] Nossa metodologia de treinamento é incorporada ao COMAT, que mostra atribuições aprimoradas de atributos de texto para imagem.
[26/02/2024] O TokEncompose é aceito no CVPR 2024!
[20/02/2024] O TokEncompose é usado como um modelo básico do papel realCompo para composicionalidade aprimorada.

video.mp4

Um modelo de difusão estável fino com termos de consistência no nível do token para composição e fotorismo de instância multi-categorias aprimorados.

Método	Composição de instância de várias categorias									Fotorrealismo		Eficiência
	Precisão do objeto	COCO				Ade20K				Fid (Coco)	FID (Flickr30k)	Latência
	Precisão do objeto	Mg2	Mg3	Mg4	Mg5	Mg2	Mg3	Mg4	Mg5	Fid (Coco)	FID (Flickr30k)	Latência
SD 1.4	29.86	90.72 _1.33	50,74 _0,89	11.68 _0,45	0,88 _0,21	89,81 _0,40	53.96 _1.14	16.52 _1.13	1,89 _0,34	20.88	71.46	7,54 _0,17
Composível	27.83	63.33 _0,59	21.87 _1.01	3,25 _0,45	0,23 _0,18	69.61 _0,99	29.96 _0,84	6,89 _0,38	0,73 _0,22	-	75.57	13.81 _0,15
Layout	43.59	93.22 _0,69	60.15 _1.58	19.49 _0,88	2,27 _0,44	96.05 _0,34	67,83 _0,90	21.93 _1.34	2,35 _0,41	-	74.00	18,89 _0,20
Estruturado	29.64	90.40 _1.06	48.64 _1.32	10.71 _0,92	0,68 _0,25	89,25 _0,72	53.05 _1.20	15,76 _0,86	1,74 _0,49	21.13	71.68	7,74 _0,17
Attn-Exct	45.13	93,64 _0,76	65.10 _1.24	28.01 _0,90	6.01 _0,61	91,74 _0,49	62.51 _0,94	26.12 _0,78	5,89 _0,40	-	71.68	25.43 _4.89
TokEncompose (nosso)	52.15	98,08 _0,40	76.16 _1.04	28,81 _0,95	3,28 _0,48	97,75 _0,34	76.93 _1.09	33.92 _1.47	6.21 _0,62	20.19	71.13	7,56 _0,14

? Modelos

Versão de difusão estável	Ponto de verificação 1	Ponto de verificação 2
v1.4	TOKENCOMPOSE_SD14_A	Tokenncompose_sd14_b
v2.1	Tokenncompose_sd21_a	Tokenncompose_sd21_b

Nossos modelos FinetUned não contêm módulos extras e podem ser usados diretamente em uma biblioteca de modelos de difusão padrão (por exemplo, difusores do Huggingface) substituindo a rede U pré-treinada pela nossa rede U Finetuned de maneira plug-and-play. Fornecemos um notebook Demo Jupyter que usa nosso ponto de verificação do modelo para gerar imagens.

Você também pode usar o código a seguir para baixar nossos pontos de verificação e gerar imagens:

 import torch
from diffusers import StableDiffusionPipeline

model_id = "mlpc-lab/TokenCompose_SD14_A"
device = "cuda"

pipe = StableDiffusionPipeline . from_pretrained ( model_id , torch_dtype = torch . float32 )
pipe = pipe . to ( device )

prompt = "A cat and a wine glass"
image = pipe ( prompt ). images [ 0 ]  
    
image . save ( "cat_and_wine_glass.png" )

Multigen

Consulte Multigen para obter detalhes.

Método	COCO				Ade20K
Método	Mg2	Mg3	Mg4	Mg5	Mg2	Mg3	Mg4	Mg5
SD 1.4	90.72 _1.33	50,74 _0,89	11.68 _0,45	0,88 _0,21	89,81 _0,40	53.96 _1.14	16.52 _1.13	1,89 _0,34
Composível	63.33 _0,59	21.87 _1.01	3,25 _0,45	0,23 _0,18	69.61 _0,99	29.96 _0,84	6,89 _0,38	0,73 _0,22
Layout	93.22 _0,69	60.15 _1.58	19.49 _0,88	2,27 _0,44	96.05 _0,34	67,83 _0,90	21.93 _1.34	2,35 _0,41
Estruturado	90.40 _1.06	48.64 _1.32	10.71 _0,92	0,68 _0,25	89,25 _0,72	53.05 _1.20	15,76 _0,86	1,74 _0,49
Attn-Exct	93,64 _0,76	65.10 _1.24	28.01 _0,90	6.01 _0,61	91,74 _0,49	62.51 _0,94	26.12 _0,78	5,89 _0,40
Nosso	98,08 _0,40	76.16 _1.04	28,81 _0,95	3,28 _0,48	97,75 _0,34	76.93 _1.09	33.92 _1.47	6.21 _0,62

Configuração do ambiente

Para aqueles que desejam usar nossa base de código para treinar seus próprios modelos de difusão com objetivos no nível do token , siga as instruções abaixo:

conda create -n TokenCompose python=3.8.5
conda activate TokenCompose
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

Verificamos a configuração do ambiente usando essas versões específicas do pacote, mas esperamos que também funcione para versões mais recentes!

Configuração do conjunto de dados

Se você deseja usar seus próprios dados, consulte o pré -Process_data para obter detalhes.

Se você deseja usar nossos dados de treinamento como exemplos ou para fins de pesquisa, siga as instruções abaixo:

1. Configure os dados da imagem Coco

 cd train/data
# download COCO train2017
wget http://images.cocodataset.org/zips/train2017.zip
unzip train2017.zip
rm train2017.zip
bash coco_data_setup.sh

Após esta etapa, você deve ter a seguinte estrutura sob o diretório train/data :

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...

2. Mapas de segmentação aterrados em termos de token de configuração

Faça o download dos dados de segmentação do Coco do Google Drive e coloque -os no diretório train/data .

Após esta etapa, você deve ter a seguinte estrutura sob o diretório train/data :

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...
    coco_gsam_seg.tar

Em seguida, execute o seguinte comando para descompactar os dados de segmentação:

 cd train/data
tar -xvf coco_gsam_seg.tar
rm coco_gsam_seg.tar

Após a configuração, você deve ter a seguinte estrutura sob o diretório train/data :

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...
    coco_gsam_seg/
        000000000142/
            mask_000000000142_bananas.png
            mask_000000000142_bread.png
            ...
        000000000370/
            mask_000000000370_bananas.png
            mask_000000000370_bread.png
            ...
        ...

? Treinamento

Usamos o wandb para registrar algumas curvas e visualizações. Faça login no wandb antes de executar os scripts.

wandb login

Então, para executar o TokEncompose, use o seguinte comando:

 cd train
bash train.sh

Os resultados serão salvos no diretório train/results .

? Sustce

Este repositório é liberado sob a licença Apache 2.0.

Reconhecimento

Nosso código é construído sobre difusores, rápido para promover, viseira, segmento fundamentado e clipe. Agradecemos a todos esses autores por seu código de código bem aberto e suas grandes contribuições para a comunidade.

Citação

Se você achar útil nosso trabalho, considere citar:

 @InProceedings { Wang2024TokenCompose ,
    author    = { Wang, Zirui and Sha, Zhizhou and Ding, Zheng and Wang, Yilin and Tu, Zhuowen } ,
    title     = { TokenCompose: Text-to-Image Diffusion with Token-level Supervision } ,
    booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
    month     = { June } ,
    year      = { 2024 } ,
    pages     = { 8553-8564 }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-10
tamanho 2.51MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos