Unduh FlaxDiff - Unduh Kode Sumber FlaxDiff

FlaxDiff

Kode sumber lainnya

1.0.0

Unduh

Proyek ini sebagian didukung oleh Google TPU Research Cloud. Saya ingin mengucapkan terima kasih kepada tim TPU Google Cloud karena telah memberikan saya sumber daya untuk melatih model-model kondisi teks yang lebih besar dalam pengaturan yang didistribusikan multi-host.

Perpustakaan difusi yang serba guna dan sederhana

Dalam beberapa tahun terakhir, difusi dan model multi-langkah berbasis skor telah merevolusi domain AI generatif. Namun, penelitian terbaru di bidang ini telah menjadi sangat intensif matematika, membuatnya menantang untuk memahami bagaimana model difusi canggih bekerja dan menghasilkan gambar yang mengesankan. Mereplikasi penelitian ini dalam kode bisa menakutkan.

Flaxdiff adalah perpustakaan alat (penjadwal, sampler, model, dll.) Dirancang dan diimplementasikan dengan cara yang mudah dipahami. Fokusnya adalah pada pemahaman dan keterbacaan atas kinerja. Saya memulai proyek ini sebagai hobi untuk membiasakan diri dengan Flax dan Jax dan untuk belajar tentang difusi dan penelitian terbaru dalam AI generatif.

Saya awalnya memulai proyek ini di Keras, terbiasa dengan TensorFlow 2.0, tetapi beralih ke rami, ditenagai oleh Jax, untuk kinerjanya dan kemudahan penggunaannya. Notebook dan model lama, termasuk model rami pertama saya, juga disediakan.

Notebook Diffusion_flax_linen.ipynb adalah ruang kerja utama saya untuk percobaan. Beberapa pos pemeriksaan diunggah ke folder pretrained bersama dengan salinan notebook kerja yang terkait dengan setiap pos pemeriksaan. Anda mungkin perlu menyalin notebook ke root yang berfungsi agar berfungsi dengan baik.

Contoh notebook dari awal

Dalam example notebooks , Anda akan menemukan buku catatan komprehensif untuk berbagai teknik difusi, ditulis sepenuhnya dari awal dan tidak tergantung pada perpustakaan Flaxdiff. Setiap notebook mencakup penjelasan terperinci tentang matematika dan konsep yang mendasari, menjadikannya sumber daya yang sangat berharga untuk belajar dan memahami model difusi.

Buku catatan dan sumber daya yang tersedia

Difusi dijelaskan (tautan NBViewer) (tautan lokal)
- Bekerja dalam proses eksplorasi mendalam tentang konsep model generatif berbasis difusi, DDPM (model probabilistik difusi denoising), DDIM (model implisit difusi denoising), dan generalisasi difusi SDE/Ode, dengan penjelasan dan kode langkah demi langkah.

EDM (menjelaskan ruang desain model generatif berbasis difusi)
- TODO Panduan menyeluruh untuk EDM, membahas pendekatan dan teknik inovatif yang digunakan dalam model difusi canggih ini.

Buku catatan ini bertujuan untuk memberikan panduan yang sangat mudah dipahami dan langkah demi langkah untuk berbagai model dan teknik difusi. Mereka dirancang untuk menjadi ramah-pemula, dan dengan demikian meskipun mereka mungkin tidak mematuhi formulasi dan implementasi makalah asli yang tepat untuk membuatnya lebih dapat dimengerti dan digeneralisasikan, saya telah mencoba yang terbaik untuk menjaga mereka seakurat mungkin. Jika Anda menemukan kesalahan atau memiliki saran, jangan ragu untuk membuka masalah atau permintaan tarik.

Sumber daya lainnya

Data multi-host skrip pelatihan paralel di jax
- Script pelatihan untuk pelatihan paralel data multi-host di JAX, untuk berfungsi sebagai referensi untuk melatih model besar pada beberapa GPU/TPU di beberapa host. Notebook tutorial lengkap sedang dikerjakan.
Utilitas TPU untuk membuat hidup lebih mudah
- Kumpulan utilitas dan skrip untuk membuat bekerja dengan TPU lebih mudah, seperti CLI untuk membuat/memulai/menghentikan/mengatur TPU, skrip untuk mengatur TPU VM (instal semua yang Anda butuhkan), pemasangan kumpulan data GCS dll.

Penafian (dan tentang saya)

Saya bekerja sebagai peneliti pembelajaran mesin di Hyperverge dari 2019-2021, dengan fokus pada visi komputer, khususnya wajah anti-spoofing dan deteksi & pengakuan wajah. Sejak beralih ke pekerjaan saya saat ini pada tahun 2021, saya belum melakukan pekerjaan R&D sebanyak mungkin, membuat saya memulai proyek hewan peliharaan ini untuk mengunjungi kembali dan mempelajari kembali fundamental dan menjadi terbiasa dengan canggih. Peran saya saat ini terutama melibatkan rekayasa sistem Golang dengan beberapa pekerjaan ML terapan yang hanya ditaburkan. Oleh karena itu, kode tersebut dapat mencerminkan perjalanan belajar saya. Mohon maafkan kesalahan apa pun dan buka masalah untuk memberi tahu saya.

Juga, beberapa teks dapat dihasilkan dengan bantuan github copilot, jadi mohon maafkan kesalahan dalam teks.

Indeks

Perpustakaan Difusi yang Serbaguna dan Mudah Dipahami
Penafian (dan tentang saya)
Fitur
- Penjadwal
- Prediktor model
- Sampler
- Pelatihan
- Model
Pemasangan Flaxdiff
Memulai dengan Flaxdiff
- Contoh pelatihan
- Contoh inferensi
Referensi dan Ucapan Terima Kasih
Daftar hal yang tertunda untuk dilakukan
Galeri
Kontribusi
Lisensi

Fitur

Penjadwal

Diimplementasikan di flaxdiff.schedulers :

LinearnoisesChedule ( flaxdiff.schedulers.LinearNoiseSchedule ): Sebuah penjadwal diskrit beta-parameterized.
CosinenoisesChedule ( flaxdiff.schedulers.CosineNoiseSchedule ): Sebuah penjadwal diskrit beta-parameterized.
ExpnoisesChedule ( flaxdiff.schedulers.ExpNoiseSchedule ): Penjadwal diskrit beta-parameterisasi.
Cosinecontinuescheduler ( flaxdiff.schedulers.CosineContinuousNoiseScheduler ): penjadwal berkelanjutan.
CosineGeneralnoisesCheduler ( flaxdiff.schedulers.CosineGeneralNoiseScheduler ): Sigma kontinu parameter penjadwal kosinus.
KarrasvenoisesCheduler ( flaxdiff.schedulers.KarrasVENoiseScheduler ): Penjadwal kontinu yang diparameterisasi sigma yang diusulkan oleh Karras et al. 2022, paling cocok untuk inferensi.
EdmnoisesCheduler ( flaxdiff.schedulers.EDMNoiseScheduler ): Penjadwal kontinu yang diparameterisasi sigma berdasarkan pada model difusi eksponensial (EDM), paling cocok untuk pelatihan dengan Karraskarrasvenoisescheduler.

Prediktor model

Diterapkan di flaxdiff.predictors :

Epsilonpredictor ( flaxdiff.predictors.EpsilonPredictor ): Memprediksi kebisingan dalam data.
X0predictor ( flaxdiff.predictors.X0Predictor ): Memprediksi data asli dari data bising.
Vpredictor ( flaxdiff.predictors.VPredictor ): Memprediksi kombinasi linier dari data dan kebisingan, yang biasa digunakan dalam EDM.
KarrasedMpredictor ( flaxdiff.predictors.KarrasEDMPredictor ): Prediktor umum untuk EDM, mengintegrasikan berbagai parameterisasi.

Sampler

Diimplementasikan di flaxdiff.samplers :

DDPMSAMPLER ( flaxdiff.samplers.DDPMSampler ): Mengimplementasikan proses pengambilan sampel Denoising Difusion Probabilistic Model (DDPM).
DDIMSAMPLER ( flaxdiff.samplers.DDIMSampler ): mengimplementasikan proses pengambilan sampel Denoising Difusion Implicit Model (DDIM).
Eulersampler ( flaxdiff.samplers.EulerSampler ): Sampler pemecah ode menggunakan metode Euler.
HeunSampler ( flaxdiff.samplers.HeunSampler ): Sampler pemecah ode menggunakan metode Heun.
RK4SAMPLER ( flaxdiff.samplers.RK4Sampler ): Sampler pemecah ODE menggunakan metode Runge-Kutta.
MULTISTEPDPM ( flaxdiff.samplers.MultiStepDPM ): mengimplementasikan metode pengambilan sampel multi-langkah yang terinspirasi oleh pemecah DPM multistep seperti yang disajikan di sini: tonyduan/difusi)

Pelatihan

Diimplementasikan di flaxdiff.trainer :

DifusionTrainer ( flaxdiff.trainer.DiffusionTrainer ): Kelas yang dirancang untuk memfasilitasi pelatihan model difusi. Ini mengelola loop pelatihan, perhitungan kerugian, dan pembaruan model.

Model

Diimplementasikan di flaxdiff.models :

Unet ( flaxdiff.models.simple_unet.SimpleUNet ): Sampel arsitektur unet untuk model difusi.
Layers : A library of layers including upsampling ( flaxdiff.models.simple_unet.Upsample ), downsampling ( flaxdiff.models.simple_unet.Downsample ), Time embeddings ( flaxdiff.models.simple_unet.FouriedEmbedding ), attention ( flaxdiff.models.simple_unet.AttentionBlock ), dan blok residu ( flaxdiff.models.simple_unet.ResidualBlock ).

Instalasi

Untuk memasang Flaxdiff, Anda harus memiliki Python 3.10 atau lebih tinggi. Instal dependensi yang diperlukan menggunakan:

pip install -r requirements.txt

Model dilatih dan diuji dengan JAX == 0.4.28 dan Flax == 0.8.4. Namun, ketika saya memperbarui ke JAX terbaru == 0.4.30 dan Flax == 0.8.5, model menghentikan pelatihan. Tampaknya ada beberapa perubahan besar melanggar dinamika pelatihan dan oleh karena itu saya akan merekomendasikan tetap pada versi yang disebutkan dalam persyaratan.txt

Memulai

Contoh pelatihan

Berikut adalah contoh yang disederhanakan untuk memulai dengan melatih model difusi menggunakan Flaxdiff:

 from flaxdiff . schedulers import EDMNoiseScheduler
from flaxdiff . predictors import KarrasPredictionTransform
from flaxdiff . models . simple_unet import SimpleUNet as UNet
from flaxdiff . trainer import DiffusionTrainer
import jax
import optax
from datetime import datetime

BATCH_SIZE = 16
IMAGE_SIZE = 64

# Define noise scheduler
edm_schedule = EDMNoiseScheduler ( 1 , sigma_max = 80 , rho = 7 , sigma_data = 0.5 )

# Define model
unet = UNet ( emb_features = 256 , 
            feature_depths = [ 64 , 128 , 256 , 512 ],
            attention_configs = [{ "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }],
            num_res_blocks = 2 ,
            num_middle_res_blocks = 1 )

# Load dataset
data , datalen = get_dataset ( "oxford_flowers102" , batch_size = BATCH_SIZE , image_scale = IMAGE_SIZE )
batches = datalen // BATCH_SIZE

# Define optimizer
solver = optax . adam ( 2e-4 )

# Create trainer
trainer = DiffusionTrainer ( unet , optimizer = solver , 
                           noise_schedule = edm_schedule ,
                           rngs = jax . random . PRNGKey ( 4 ), 
                           name = "Diffusion_SDE_VE_" + datetime . now (). strftime ( "%Y-%m-%d_%H:%M:%S" ),
                           model_output_transform = KarrasPredictionTransform ( sigma_data = edm_schedule . sigma_data ))

# Train the model
final_state = trainer . fit ( data , batches , epochs = 2000 )

Contoh inferensi

Berikut adalah contoh yang disederhanakan untuk menghasilkan gambar menggunakan model terlatih:

 from flaxdiff . samplers import DiffusionSampler

class EulerSampler ( DiffusionSampler ):
    def take_next_step ( self , current_samples , reconstructed_samples , pred_noise , current_step , state , next_step = None ):
        current_alpha , current_sigma = self . noise_schedule . get_rates ( current_step )
        next_alpha , next_sigma = self . noise_schedule . get_rates ( next_step )
        dt = next_sigma - current_sigma
        x_0_coeff = ( current_alpha * next_sigma - next_alpha * current_sigma ) / dt
        dx = ( current_samples - x_0_coeff * reconstructed_samples ) / current_sigma
        next_samples = current_samples + dx * dt
        return next_samples , state

# Create sampler
sampler = EulerSampler ( trainer . model , trainer . state . ema_params , edm_schedule , model_output_transform = trainer . model_output_transform )

# Generate images
samples = sampler . generate_images ( num_images = 64 , diffusion_steps = 100 , start_step = 1000 , end_step = 0 )
plotImages ( samples , dpi = 300 )

Referensi dan Ucapan Terima Kasih

Makalah Penelitian dan Pracetak

Kertas Model Probabilistik Denoising Denoising Asli (DDPM)
Denoising Difusion Implicit Model (DDIM) Makalah
Paper Model Probabilistik Denoising Denoising
Model difusi mengalahkan GAN pada kertas sintesis gambar
Pemodelan generatif berbasis skor melalui kertas persamaan diferensial stokastik
Menjelaskan ruang desain kertas generatif berbasis difusi (EDM) kertas
Persepsi memprioritaskan pelatihan kertas difusi (pembobotan P2) kertas
Metode Numerik Pseudo untuk Model Difusi pada Kertas Manifold (PNMDM)
Solver DPM: Pemecah ode cepat untuk pengambilan sampel model probabilistik difusi di sekitar 10 langkah kertas kertas

Blog dan basis kode yang berguna

Serangkaian blog yang luar biasa tentang berbagai topik terkait difusi oleh Sander Dieleman. Posting khususnya pada model difusi, tipikal, geometri panduan difusi dan jadwal kebisingan harus dibaca
Seri blog yang luar biasa oleh Tony Duan pada model difusi dari awal. Meskipun melatih model untuk MNIST dan implementasinya agak mendasar, matematika dijelaskan dengan cara yang sangat baik. Basis kode ada di sini
Basis kode K-difusi Katherine Crowson, yang meng-host implementasi lengkap dari kertas EDM (Karras et al) bersama dengan DPM-Solver, DPM-Solver ++ (baik 2S dan 2M) di PyTorch. Sebagian besar perpustakaan difusi lainnya meminjam dari ini.
Implementasi EDM resmi oleh Tero Karras, di Pytorch. Kode yang sangat rapi dan implementasi referensi untuk semua sampler/jadwal berbasis Karras.
Perpustakaan Diffusers Face Hugging, bisa dibilang serangkaian implementasi paling lengkap untuk teknik dan konsep canggih terbaru di bidang ini. Ditulis terutama dalam Pytorch, tetapi dengan implementasi Flax juga tersedia untuk banyak konsep, fokus repositori ini adalah pada kelengkapan dan kemudahan pemahaman juga.
Tutorial Keras DDPM oleh A_K Nain, dan implementasi Keras DDIM oleh András Béres, yang merupakan titik awal yang bagus bagi pemula untuk memahami dasar -dasar model difusi. Saya memulai perjalanan saya dengan mencoba menerapkan konsep yang diperkenalkan dalam tutorial ini dari awal.
Terima kasih khusus kepada ChatGPT-4 oleh Openai karena telah membantu menghapus keraguan saya.

Daftar hal yang tertunda untuk dilakukan

Pemecah lanjutan seperti dpm/dpm2/dpm ++ dll
Versi SDE dari pemecah ode saat ini yaitu, pengambilan sampel leluhur
Pembuatan gambar terkondisi teks
Classifier dan bimbingan gratis yang diklasifikasikan

Galeri

Gambar yang dihasilkan oleh Euler Ancestral Sampler dalam 200 langkah [Text2Image dengan CFG]

Model trained on Laion-Aesthetics 12M + CC12M + MS COCO + 1M aesthetic 6+ subset of COYO-700M on TPU-v4-32: a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden

Params : Dataset: Laion-Aesthetics 12M + CC12M + MS COCO + 1M aesthetic 6+ subset of COYO-700M Batch size: 256 Image Size: 128 Training Epochs: 5 Steps per epoch: 74573 Model Configurations: feature_depths=[128, 256, 512, 1024]

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

Eulera dengan CFG

Gambar yang dihasilkan oleh Euler Ancestral Sampler dalam 200 langkah [Text2Image dengan CFG]

Images generated by the following prompts using classifier free guidance with guidance factor = 2: 'water tulip, a water lily, a water lily, a water lily, a photo of a marigold, a water lily, a water lily, a photo of a lotus, a photo of a lotus, a photo of a lotus, a photo of a rose, a photo of a rose, a photo of a rose, a photo of a rose, a photo of a rose'

Params : Dataset: oxford_flowers102 Batch size: 16 Image Size: 128 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

Eulera dengan CFG

Gambar yang dihasilkan oleh Euler Ancestral Sampler dalam 200 langkah [Text2Image dengan CFG]

Images generated by the following prompts using classifier free guidance with guidance factor = 4: 'water tulip, a water lily, a water lily, a photo of a rose, a photo of a rose, a water lily, a water lily, a photo of a marigold, a photo of a marigold, a photo of a marigold, a water lily, a photo of a sunflower, a photo of a lotus, columbine, columbine, an orchid, an orchid, an orchid, a water lily, a water lily, a water lily, columbine, columbine, a photo of a sunflower, a photo of a sunflower, a photo of a sunflower, a photo of a lotus, a photo of a lotus, a photo of a marigold, a photo of a marigold, a photo of a rose, a photo of a rose, a photo of a rose, orange dahlia, orange dahlia, a lenten rose, a lenten rose, a water lily, a water lily, a water lily, a water lily, an orchid, an orchid, an orchid, hard-leaved pocket orchid, bird of paradise, bird of paradise, a photo of a lovely rose, a photo of a lovely rose, a photo of a globe-flower, a photo of a globe-flower, a photo of a lovely rose, a photo of a lovely rose, a photo of a ruby-lipped cattleya, a photo of a ruby-lipped cattleya, a photo of a lovely rose, a water lily, a osteospermum, a osteospermum, a water lily, a water lily, a water lily, a red rose, a red rose'

Params : Dataset: oxford_flowers102 Batch size: 16 Image Size: 128 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

Eulera dengan CFG

Gambar yang dihasilkan oleh sampler DDPM dalam 1000 langkah [tanpa syarat]

Params : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: CosineNoiseSchedule Inference Noise Schedule: CosineNoiseSchedule

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

Hasil Sampler DDPM

Gambar yang dihasilkan oleh sampler DDPM dalam 1000 langkah [tanpa syarat]

Params : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: CosineNoiseSchedule Inference Noise Schedule: CosineNoiseSchedule

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

Hasil Sampler DDPM

Gambar yang dihasilkan oleh Heun Sampler dalam 10 Langkah (20 Kesimpulan Model Saat Heun Mengambil 2x Langkah Inferensi) [Tanpa Syarat]

Params : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

Hasil Heun Sampler