TokenCompose下載 - TokenCompose源代碼下載

TokenCompose

其他源碼

1.0.0

下載

？ TokenCompose：具有令牌級的監督的文本對圖像擴散

Zirui Wang ^1，3 · Zhizhou Sha ^2，3 · Zheng ding ³ · Yilin Wang ^2，3 · Zhuowen tu ³

¹普林斯頓大學· ² Tsinghua大學·加利福尼亞大學聖地亞哥^分校

CVPR 2024

Zirui Wang，Zhizhou Sha和Yilin Wang在聖地亞哥加州大學實習時完成的項目。

項目頁面| arxiv | x（Twitter）

更新

如果您為您的研究項目使用我們的方法和/或模型，我們很樂意在此處提供交叉引用。 :)

[04/04/2024]我們的培訓方法已納入昏迷中，該方法顯示了增強的文本對圖像屬性分配。
[02/26/2024] CVPR 2024接受Tokencompose！
[02/20/2024] Tokencompose用作Realmpo紙的基本模型，以增強組成性。

Video.mp4

具有令牌級的一致性項的穩定擴散模型，用於增強的多類實例組成和光真相。

方法	多類別實例組成									光真主		效率
	對象準確性	可可				ADE20K				FID（可可）	fid（flickr30k）	潛伏期
	對象準確性	MG2	MG3	MG4	MG5	MG2	MG3	MG4	MG5	FID（可可）	fid（flickr30k）	潛伏期
SD 1.4	29.86	90.72 _1.33	50.74 _0.89	11.68 _0.45	0.88 _0.21	89.81 _0.40	53.96 _1.14	16.52 _1.13	1.89 _0.34	20.88	71.46	7.54 _0.17
可綜合	27.83	63.33 _0.59	21.87 _1.01	3.25 _0.45	0.23 _0.18	69.61 _0.99	29.96 _0.84	6.89 _0.38	0.73 _0.22	-	75.57	13.81 _0.15
佈局	43.59	93.22 _0.69	60.15 _1.58	19.49 _0.88	2.27 _0.44	96.05 _0.34	67.83 _0.90	21.93 _1.34	2.35 _0.41	-	74.00	18.89 _0.20
結構	29.64	90.40 _1.06	48.64 _1.32	10.71 _0.92	0.68 _0.25	89.25 _0.72	53.05 _1.20	15.76 _0.86	1.74 _0.49	21.13	71.68	7.74 _0.17
attn-exct	45.13	93.64 _0.76	65.10 _1.24	28.01 _0.90	6.01 _0.61	91.74 _0.49	62.51 _0.94	26.12 _0.78	5.89 _0.40	-	71.68	25.43 _4.89
tokencocsose（我們的）	52.15	98.08 _0.40	76.16 _1.04	28.81 _0.95	3.28 _0.48	97.75 _0.34	76.93 _1.09	33.92 _1.47	6.21 _0.62	20.19	71.13	7.56 _0.14

？型號

穩定擴散版	檢查點1	檢查點2
v1.4	tokencompose_sd14_a	tokencompose_sd14_b
v2.1	tokencompose_sd21_a	tokencompose_sd21_b

我們的填充型號不包含任何額外的模塊，可以通過以插件和播放方式將預處理的U-NET替換為預審計的U-NET，直接在標準擴散模型庫（例如，Huggingface的擴散器）中使用。我們提供一個演示jupyter筆記本電腦，該筆記本使用我們的模型檢查點生成圖像。

您還可以使用以下代碼下載我們的檢查點並生成圖像：

 import torch
from diffusers import StableDiffusionPipeline

model_id = "mlpc-lab/TokenCompose_SD14_A"
device = "cuda"

pipe = StableDiffusionPipeline . from_pretrained ( model_id , torch_dtype = torch . float32 )
pipe = pipe . to ( device )

prompt = "A cat and a wine glass"
image = pipe ( prompt ). images [ 0 ]  
    
image . save ( "cat_and_wine_glass.png" )

多基因

有關詳細信息，請參見Multigen。

方法	可可				ADE20K
方法	MG2	MG3	MG4	MG5	MG2	MG3	MG4	MG5
SD 1.4	90.72 _1.33	50.74 _0.89	11.68 _0.45	0.88 _0.21	89.81 _0.40	53.96 _1.14	16.52 _1.13	1.89 _0.34
可綜合	63.33 _0.59	21.87 _1.01	3.25 _0.45	0.23 _0.18	69.61 _0.99	29.96 _0.84	6.89 _0.38	0.73 _0.22
佈局	93.22 _0.69	60.15 _1.58	19.49 _0.88	2.27 _0.44	96.05 _0.34	67.83 _0.90	21.93 _1.34	2.35 _0.41
結構	90.40 _1.06	48.64 _1.32	10.71 _0.92	0.68 _0.25	89.25 _0.72	53.05 _1.20	15.76 _0.86	1.74 _0.49
attn-exct	93.64 _0.76	65.10 _1.24	28.01 _0.90	6.01 _0.61	91.74 _0.49	62.51 _0.94	26.12 _0.78	5.89 _0.40
我們的	98.08 _0.40	76.16 _1.04	28.81 _0.95	3.28 _0.48	97.75 _0.34	76.93 _1.09	33.92 _1.47	6.21 _0.62

環境設置

對於那些想使用我們的代碼庫來培訓您自己的擴散模型的人，請按照以下說明：

conda create -n TokenCompose python=3.8.5
conda activate TokenCompose
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

我們已經使用此特定的軟件包版本驗證了環境設置，但是我們希望它也適用於較新版本！

數據集設置

如果您想使用自己的數據，請參考preprocess_data了解詳細信息。

如果您想將我們的培訓數據作為示例或研究目的，請按照以下說明：

1。設置可可圖像數據

 cd train/data
# download COCO train2017
wget http://images.cocodataset.org/zips/train2017.zip
unzip train2017.zip
rm train2017.zip
bash coco_data_setup.sh

在此步驟之後，您應該在train/data目錄下具有以下結構：

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...

2。設置令牌紮根的分割圖

從Google Drive下載可可細分數據，並將其放在train/data目錄下。

在此步驟之後，您應該在train/data目錄下具有以下結構：

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...
    coco_gsam_seg.tar

然後，運行以下命令來解壓縮分割數據：

 cd train/data
tar -xvf coco_gsam_seg.tar
rm coco_gsam_seg.tar

設置後，您應該在train/data目錄下具有以下結構：

 train/data/
    coco_gsam_img/
        train/
            000000000142.jpg
            000000000370.jpg
            ...
    coco_gsam_seg/
        000000000142/
            mask_000000000142_bananas.png
            mask_000000000142_bread.png
            ...
        000000000370/
            mask_000000000370_bananas.png
            mask_000000000370_bread.png
            ...
        ...

？訓練

我們使用WandB記錄一些曲線和可視化。在運行腳本之前登錄到Wandb。

wandb login

然後，要運行tokencompose，請使用以下命令：

 cd train
bash train.sh

結果將在train/results目錄下保存。

？許可證

該存儲庫是根據Apache 2.0許可證發布的。

致謝

我們的代碼建立在擴散器，及時啟動，遮陽板，接地段和剪輯的基礎上。我們感謝所有這些作者的開放式代碼及其對社區的巨大貢獻。

引用

如果您發現我們的工作有用，請考慮引用：

 @InProceedings { Wang2024TokenCompose ,
    author    = { Wang, Zirui and Sha, Zhizhou and Ding, Zheng and Wang, Yilin and Tu, Zhuowen } ,
    title     = { TokenCompose: Text-to-Image Diffusion with Token-level Supervision } ,
    booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
    month     = { June } ,
    year      = { 2024 } ,
    pages     = { 8553-8564 }
}

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-10
大小 2.51MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部