Palette Image to Image Diffusion Models ดาวน์โหลด - Palette Image to Image Diffusion Models Download Download

Palette Image to Image Diffusion Models

หลาม

1.0.0

ดาวน์โหลด

Palette: รูปแบบการแพร่ภาพต่อภาพ

กระดาษ | โครงการ

รวบรัด

นี่คือการใช้งานอย่างไม่เป็นทางการของ Palette: รูปแบบการแพร่กระจายของภาพกับภาพ โดย pytorch และส่วนใหญ่ได้รับการสืบทอดมาจากเวอร์ชันความละเอียดสูงของภาพความละเอียด-ความละเอียด-via-via-titerative-refinement เทมเพลตรหัสมาจากโครงการเมล็ดพันธุ์อื่นของฉัน: Distributed-Pytorch-Template

มีรายละเอียดการใช้งานบางอย่างพร้อมคำอธิบายกระดาษ:

เราปรับสถาปัตยกรรม U-NET ที่ใช้ใน Guided-Diffusion ซึ่งช่วยเพิ่มคุณภาพตัวอย่าง
เราใช้กลไกความสนใจในคุณสมบัติความละเอียดต่ำ (16 × 16) เช่นวานิลลา DDPM
เราเข้ารหัสไฟล์ $ gamma $ มากกว่า $ t $ ใน Palette และฝังด้วยการเปลี่ยนแปลงเลียนแบบ
เราแก้ไขความแปรปรวน $ σ_ theta (x_t, t) $ เป็นค่าคงที่ในระหว่างการอนุมานตามที่อธิบายไว้ใน Palette

สถานะ

รหัส

ไปป์ไลน์โมเดลการแพร่กระจาย
กระบวนการรถไฟ/ทดสอบ
บันทึก/โหลดสถานะการฝึกอบรม
คนตัดไม้/เทนเซอร์บอร์ด
การฝึกอบรม GPU หลายครั้ง (DDP)
EMA
ตัวชี้วัด (ตอนนี้สำหรับ FID คือ)
ชุดข้อมูล (ตอนนี้สำหรับ inpainting, uncropping, colorization)
สคริปต์ Google colab? (ตอนนี้สำหรับการทาสี)

งาน

ฉันพยายามทำตามงานให้เสร็จตามลำดับ:

Inpainting on Celebahq (Google Colab)
Inpainting on Places2 ด้วยหน้ากาก 128 × 128

การทดลองติดตามไม่แน่นอนเนื่องจากขาดเวลาและทรัพยากร GPU:

ยังไม่ได้ตัดกับ Places2
การระบายสีในชุด Imagenet Val

ผลลัพธ์

โมเดล DDPM ต้องการทรัพยากรการคำนวณที่สำคัญและเราได้สร้างตัวอย่างเพียงไม่กี่ตัวอย่างเพื่อตรวจสอบความคิดในบทความนี้

ภาพ

celeba-hq

ผลลัพธ์ที่มี 200 ยุคและการทำซ้ำ 930K และตัวอย่าง 100 ตัวอย่างแรกในหน้ากากที่อยู่ตรงกลางและหน้ากากที่ผิดปกติ

Places2 ด้วยหน้ากาก 128 × 128

ผลลัพธ์ที่มี 16 ยุคและการวนซ้ำ 660K และตัวอย่าง ที่เลือก หลายอย่างในหน้ากากศูนย์กลาง

ยังไม่ได้ตัดกับ Places2

ผลลัพธ์ที่มี 8 ยุคและการทำซ้ำ 330K และตัวอย่าง ที่เลือก หลายอย่างในการไม่ได้รับการคัดเลือก

ตัวชี้วัด

งาน	ชุดข้อมูล	EMA	fid (-)	คือ (+)
Inpainting ด้วยหน้ากากที่อยู่ตรงกลาง	celeba-hq	เท็จ	5.7873	3.0705
Inpainting ด้วยหน้ากากที่ผิดปกติ	celeba-hq	เท็จ	5.4026	3.1221

การใช้งาน

สิ่งแวดล้อม

 pip install - r requirements . txt

รูปแบบที่ผ่านการฝึกอบรมมาก่อน

ชุดข้อมูล	งาน	การทำซ้ำ	GPU ×วัน× BS	url
celeba-hq	การทาสี	930K	2 × 5 × 3	Google Drive
สถานที่ 2	การทาสี	660K	4 × 8 × 10	Google Drive

BS ระบุขนาดตัวอย่างต่อ GPU

การเตรียมข้อมูล

เราได้รับส่วนใหญ่จาก Kaggle ซึ่งอาจแตกต่างจากเวอร์ชันอย่างเป็นทางการเล็กน้อยและคุณสามารถดาวน์โหลดได้จากเว็บไซต์ทางการ

celeba-hq ขนาด (256x256) Kaggle
Places2 Official | Places2 Kaggle
เจ้าหน้าที่ Imagenet

เราใช้การแบ่งเริ่มต้นของชุดข้อมูลเหล่านี้สำหรับการฝึกอบรมและการประเมินผล รายการไฟล์ที่เราใช้สามารถพบได้ใน Celeba-HQ, Places2

หลังจากที่คุณเตรียมข้อมูลของตัวเองคุณต้องแก้ไขไฟล์กำหนดค่าที่เกี่ยวข้องเพื่อชี้ไปที่ข้อมูลของคุณ นำตัวอย่างต่อไปนี้:

 " which_dataset " : {  // import designated dataset using arguments 
    " name " : ["data.dataset", "InpaintDataset"], // import Dataset() class
    " args " :{ // arguments to initialize dataset
    	" data_root " : " your data path " ,
    	" data_len " : -1,
    	" mask_mode " : " hybrid "
    } 
},

ตัวเลือกเพิ่มเติมเกี่ยวกับ Dataloader และ การแยกการตรวจสอบความถูกต้อง สามารถพบได้ในส่วนชุด datasets ของไฟล์กำหนดค่า

การฝึกอบรม/ฝึกอบรมต่อ

ดาวน์โหลดจุดตรวจจากลิงค์ที่กำหนด
ตั้ง resume_state ของการกำหนดค่าไฟล์ไปยังไดเรกทอรีของจุดตรวจสอบก่อนหน้า นำตัวอย่างดังต่อไปนี้ไดเรกทอรีนี้มีสถานะการฝึกอบรมและแบบจำลองที่บันทึกไว้:

 " path " : { //set every part file path
	" resume_state " : "experiments/inpainting_celebahq_220426_150122/checkpoint/100" 
},

ตั้งค่าฉลากเครือข่ายของคุณในฟังก์ชัน load_everything ของ model.py ค่าเริ่มต้นคือ เครือข่าย ติดตามการตั้งค่าการสอนตัวเพิ่มประสิทธิภาพและโมเดลจะโหลดจาก 100 สถานะและ 100_Network.Pth ตามลำดับ

 netG_label = self . netG . __class__ . __name__
self . load_network ( network = self . netG , network_label = netG_label , strict = False )

เรียกใช้สคริปต์:

 python run . py - p train - c config / inpainting_celebahq . json

เราทดสอบกระดูกสันหลัง U-NET ที่ใช้ใน SR3 และ Guided Diffusion และ Guided Diffusion One มีประสิทธิภาพที่แข็งแกร่งกว่าในการทดลองในปัจจุบันของเรา ตัวเลือกเพิ่มเติมเกี่ยวกับ กระดูกสันหลัง การสูญเสีย และ ตัวชี้วัด สามารถพบได้ในส่วนที่ส่วนหนึ่งของไฟล์กำหนด which_networks

ทดสอบ

แก้ไขไฟล์กำหนดค่าเพื่อชี้ไปที่ข้อมูลของคุณตามขั้นตอนใน การเตรียมข้อมูล
ตั้งค่าเส้นทางโมเดลของคุณตามขั้นตอนใน การฝึกอบรมส่วนการฝึกอบรม
เรียกใช้สคริปต์:

 python run . py - p test - c config / inpainting_celebahq . json

การประเมิน

สร้างสองโฟลเดอร์บันทึกภาพพื้นดินและภาพตัวอย่างและชื่อไฟล์ของพวกเขาจำเป็นต้องสอดคล้องกัน
เรียกใช้สคริปต์:

 python eval . py - s [ ground image path ] - d [ sample image path ]

รับทราบ

งานของเราขึ้นอยู่กับผลงานทางทฤษฎีดังต่อไปนี้:

แบบจำลองความน่าจะเป็นแบบกระจาย denoising
Palette: รูปแบบการแพร่ภาพต่อภาพ
แบบจำลองการแพร่กระจาย Gans ในการสังเคราะห์ภาพ

และเราได้รับประโยชน์มากมายจากโครงการต่อไปนี้:

Openai/Guided-diffusion
Louisrouss/diffusion-based-model-model-model

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท หลาม
เวลาอัปเดต 2025-07-14
ขนาด 5.89MB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
datamule python

หลาม
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

Palette Image to Image Diffusion Models

Palette: รูปแบบการแพร่ภาพต่อภาพ

รวบรัด

สถานะ

รหัส

งาน

ผลลัพธ์

ภาพ

celeba-hq

Places2 ด้วยหน้ากาก 128 × 128

ยังไม่ได้ตัดกับ Places2

ตัวชี้วัด

การใช้งาน

สิ่งแวดล้อม

รูปแบบที่ผ่านการฝึกอบรมมาก่อน

การเตรียมข้อมูล

การฝึกอบรม/ฝึกอบรมต่อ

ทดสอบ

การประเมิน

รับทราบ

pytorch image models

แกลเลอรี่ภาพโมอา

โฮสต์ภาพ CF

โฮสต์ภาพ CF

โปรแกรมปรับขนาดรูปภาพ VSO

ปลั๊กอินซุปเปอร์อิมเมจ

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

datamule python

Google Dorks

shepherd

mongo express