FlaxDiff 다운로드 - FlaxDiff 소스 코드 다운로드

FlaxDiff

기타 소스코드

1.0.0

다운로드

이 프로젝트는 Google TPU Research Cloud에서 부분적으로 지원됩니다. Google Cloud TPU 팀에게 다중 호스트 분산 설정에서 더 큰 텍스트 조건 모델을 훈련시킬 수있는 리소스를 제공해 주셔서 감사합니다.

다목적이고 간단한 확산 라이브러리

최근에는 확산 및 점수 기반 다중 단계 모델이 생성 AI 도메인에 혁명을 일으켰습니다. 그러나이 분야의 최신 연구는 수학 집약적이어서 최첨단 확산 모델이 어떻게 작동하고 그러한 인상적인 이미지를 생성하는지 이해하기가 어렵습니다. 코드 에서이 연구를 복제하는 것은 어려울 수 있습니다.

Flaxdiff는 이해하기 쉬운 방식으로 설계 및 구현 된 도구 라이브러리 (스케줄러, 샘플러, 모델 등)입니다. 초점은 성능에 대한 이해 성과 가독성에 있습니다. 나는이 프로젝트를 아마와 Jax에 익숙해지고 확산 및 생성 AI의 최신 연구에 대해 배우는 취미로 시작했습니다.

나는 처음에 Keras 에서이 프로젝트를 시작하여 Tensorflow 2.0에 익숙하지만 성능과 사용 편의성을 위해 Jax에 의해 구동되는 Flax로 전환되었습니다. 첫 번째 아마 모델을 포함한 오래된 노트와 모델도 제공됩니다.

Diffusion_flax_linen.ipynb 노트북은 실험을위한 나의 주요 작업 공간입니다. 각 체크 포인트와 관련된 작업 노트북의 사본과 함께 몇 가지 체크 포인트가 pretrained 폴더에 업로드됩니다. 제대로 작동하기 위해 노트북을 작업 루트에 복사해야 할 수도 있습니다.

예제 노트북의 예제

example notebooks 폴더에서는 처음부터 처음부터 작성되었으며 Flaxdiff 라이브러리와 독립적 인 다양한 확산 기술에 대한 포괄적 인 노트북을 찾을 수 있습니다. 각 노트북에는 기본 수학 및 개념에 대한 자세한 설명이 포함되어있어 확산 모델을 학습하고 이해하는 데 귀중한 자원이 있습니다.

사용 가능한 노트북 및 리소스

확산 설명 (NBViewer Link) (로컬 링크)
- 확산 기반 생성 모델의 개념, DDPM (비난 확산 확률 론적 모델), DDIM (DeNoising Diffusion Complicit Models) 및 확산의 SDE/ODE 일반화, 단계별 설명 및 코드의 심층적 인 탐색 .

EDM (확산 기반 생성 모델의 설계 공간을 설명)
- 이 고급 확산 모델에 사용 된 혁신적인 접근법과 기술에 대해 논의하면서 EDM에 대한 철저한 안내서를 제공하십시오 .

이 노트북은 다양한 확산 모델과 기술에 대한 이해하기 쉽고 단계별 가이드를 제공하는 것을 목표로합니다. 그들은 초보자에게 친숙하게 설계되었으므로 원래 논문의 정확한 제형과 구현을 고수하여 더 이해하기 쉽고 일반화 할 수있게 만들지는 않지만 가능한 한 정확하게 유지하기 위해 최선을 다했습니다. 실수가 있거나 제안이 있으면 문제 또는 풀 요청을 자유롭게 열어주십시오.

기타 리소스

JAX의 다중 호스트 데이터 병렬 교육 스크립트
- JAX의 다중 호스트 데이터 병렬 교육을위한 스크립트, 여러 호스트에서 다중 GPU/TPU에서 대형 모델을 훈련하기위한 참조 역할을합니다. 본격적인 튜토리얼 노트북이 작품에 있습니다.
삶을 더 편하게 만드는 TPU 유틸리티
- CLI를보다 쉽게 작업 할 수있는 유틸리티 및 스크립트 모음, CLI, TPU를 만들/시작/정지/설정 TPU, TPU VMS (필요한 모든 것을 설치), GCS 데이터 세트 장착 등을 설정하는 스크립트와 같은 유틸리티 및 스크립트 모음.

면책 조항 (그리고 나에 대해)

저는 2019-2021 년부터 Hyperverge에서 기계 학습 연구원으로 일하면서 컴퓨터 비전, 특히 안면 스푸핑 및 안면 탐지 및 인식에 중점을 둡니다. 2021 년에 현재 직장으로 전환 한 이후로, 나는 많은 R & D 작업에 참여하지 않았으며,이 애완 동물 프로젝트를 시작하여 기초를 다시 방문하고 배우고 최첨단에 익숙해졌습니다. 내 현재의 역할에는 주로 일부 적용된 ML 작업이 방금 뿌려진 Golang 시스템 엔지니어링과 관련이 있습니다. 따라서 코드는 내 학습 여정을 반영 할 수 있습니다. 실수를 용서하고 제게 알려주기 위해 문제를 열어주세요.

또한 Github Copilot의 도움으로 텍스트 중 일부는 생성 될 수 있으므로 텍스트의 실수를 실례합니다.

색인

다재다능하고 이해하기 쉬운 확산 라이브러리
면책 조항 (그리고 나에 대해)
특징
- 스케줄러
- 모델 예측 변수
- 샘플러
- 훈련
- 모델
Flaxdiff 설치
Flaxdiff를 시작합니다
- 훈련 예
- 추론 예
참고 문헌 및 승인
할 일이 목록에 보류 중입니다
갱도
기부금
특허

특징

스케줄러

flaxdiff.schedulers 에서 구현 :

linearnoiseschedule ( flaxdiff.schedulers.LinearNoiseSchedule ) : 베타 가라 모터 이산 스케줄러.
CosinenoisesSchedule ( flaxdiff.schedulers.CosineNoiseSchedule ) : 베타 패러 아메리카 화 된 이산 스케줄러.
expnoiseschedule ( flaxdiff.schedulers.ExpNoiseSchedule ) : 베타 가라 모터 이산 스케줄러.
cosinecontinuousnoisescheduler ( flaxdiff.schedulers.CosineContinuousNoiseScheduler ) : 연속 스케줄러.
CosineGeneralNoisescheduler ( flaxdiff.schedulers.CosineGeneralNoiseScheduler ) : 연속 Sigma 매개 변수화 된 코사인 스케줄러.
Karrasvenoisescheduler ( flaxdiff.schedulers.KarrasVENoiseScheduler ) : Karras et al. 2022, 추론에 가장 적합합니다.
edmnoisescheduler ( flaxdiff.schedulers.EDMNoiseScheduler ) : 지수 확산 모델 (EDM)을 기반으로 한 시그마-파라미터 연속 스케줄러, Karraskarrasvenoisescheduler와의 훈련에 가장 적합합니다.

모델 예측 변수

flaxdiff.predictors 에서 구현 :

epsilonpredictor ( flaxdiff.predictors.EpsilonPredictor ) : 데이터의 노이즈를 예측합니다.
x0predictor ( flaxdiff.predictors.X0Predictor ) : 시끄러운 데이터에서 원래 데이터를 예측합니다.
vpredictor ( flaxdiff.predictors.VPredictor ) : EDM에 일반적으로 사용되는 데이터와 노이즈의 선형 조합을 예측합니다.
KarrasedMpredictor ( flaxdiff.predictors.KarrasEDMPredictor ) : EDM의 일반화 된 예측 변수, 다양한 매개 변수화를 통합합니다.

샘플러

flaxdiff.samplers 에서 구현 :

ddpmsampler ( flaxdiff.samplers.DDPMSampler ) : dedoising 확산 확률 모델 (DDPM) 샘플링 프로세스를 구현합니다.
ddimsampler ( flaxdiff.samplers.DDIMSampler ) : DDIM (Denoising Fiffusion Complicit Model) 샘플링 프로세스를 구현합니다.
Eulersampler ( flaxdiff.samplers.EulerSampler ) : Euler의 방법을 사용하는 ODE 솔버 샘플러.
HeunSampler ( flaxdiff.samplers.HeunSampler ) : Heun 's Method를 사용하는 ODE 솔버 샘플러.
rk4sampler ( flaxdiff.samplers.RK4Sampler ) : runge-kutta 메소드를 사용하는 ODE 솔버 샘플러.
multistepdpm ( flaxdiff.samplers.MultiStepDPM ) : 여기에 제시된대로 MultiStep DPM 솔버에서 영감을 얻은 멀티 단계 샘플링 방법을 구현하십시오 : Tonyduan/Diffusion)

훈련

flaxdiff.trainer 에서 구현 :

DiffusionTrainer ( flaxdiff.trainer.DiffusionTrainer ) : 확산 모델의 훈련을 용이하게하도록 설계된 클래스. 교육 루프, 손실 계산 및 모델 업데이트를 관리합니다.

모델

flaxdiff.models 에서 구현 :

unet ( flaxdiff.models.simple_unet.SimpleUNet ) : 확산 모델을위한 샘플 UNET 아키텍처.
레이어 : 상향 샘플링 ( flaxdiff.models.simple_unet.Upsample ), 다운 샘플링 ( flaxdiff.models.simple_unet.Downsample ), 시간 내장 ( flaxdiff.models.simple_unet.FouriedEmbedding ),주의 ( flaxdiff.models.simple_unet.AttentionBlock )를 포함한 레이어 라이브러리. 잔여 블록 ( flaxdiff.models.simple_unet.ResidualBlock ).

설치

Flaxdiff를 설치하려면 Python 3.10 이상이 필요합니다. 다음을 사용하여 필요한 종속성을 설치하십시오.

pip install -r requirements.txt

모델은 Jax == 0.4.28 및 flax == 0.8.4로 훈련 및 테스트되었습니다. 그러나 최신 JAX == 0.4.30 및 Flax == 0.8.5로 업데이트했을 때 모델은 훈련을 중단했습니다. 훈련 역학을 깨는 데 큰 변화가 있었으므로 요구 사항에 언급 된 버전을 고수하는 것이 좋습니다.

시작하기

훈련 예

다음은 FlaxDiff를 사용하여 확산 모델을 훈련시키는 것을 시작하기위한 단순화 된 예입니다.

 from flaxdiff . schedulers import EDMNoiseScheduler
from flaxdiff . predictors import KarrasPredictionTransform
from flaxdiff . models . simple_unet import SimpleUNet as UNet
from flaxdiff . trainer import DiffusionTrainer
import jax
import optax
from datetime import datetime

BATCH_SIZE = 16
IMAGE_SIZE = 64

# Define noise scheduler
edm_schedule = EDMNoiseScheduler ( 1 , sigma_max = 80 , rho = 7 , sigma_data = 0.5 )

# Define model
unet = UNet ( emb_features = 256 , 
            feature_depths = [ 64 , 128 , 256 , 512 ],
            attention_configs = [{ "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }, { "heads" : 4 }],
            num_res_blocks = 2 ,
            num_middle_res_blocks = 1 )

# Load dataset
data , datalen = get_dataset ( "oxford_flowers102" , batch_size = BATCH_SIZE , image_scale = IMAGE_SIZE )
batches = datalen // BATCH_SIZE

# Define optimizer
solver = optax . adam ( 2e-4 )

# Create trainer
trainer = DiffusionTrainer ( unet , optimizer = solver , 
                           noise_schedule = edm_schedule ,
                           rngs = jax . random . PRNGKey ( 4 ), 
                           name = "Diffusion_SDE_VE_" + datetime . now (). strftime ( "%Y-%m-%d_%H:%M:%S" ),
                           model_output_transform = KarrasPredictionTransform ( sigma_data = edm_schedule . sigma_data ))

# Train the model
final_state = trainer . fit ( data , batches , epochs = 2000 )

추론 예

다음은 훈련 된 모델을 사용하여 이미지를 생성하기위한 단순화 된 예입니다.

 from flaxdiff . samplers import DiffusionSampler

class EulerSampler ( DiffusionSampler ):
    def take_next_step ( self , current_samples , reconstructed_samples , pred_noise , current_step , state , next_step = None ):
        current_alpha , current_sigma = self . noise_schedule . get_rates ( current_step )
        next_alpha , next_sigma = self . noise_schedule . get_rates ( next_step )
        dt = next_sigma - current_sigma
        x_0_coeff = ( current_alpha * next_sigma - next_alpha * current_sigma ) / dt
        dx = ( current_samples - x_0_coeff * reconstructed_samples ) / current_sigma
        next_samples = current_samples + dx * dt
        return next_samples , state

# Create sampler
sampler = EulerSampler ( trainer . model , trainer . state . ema_params , edm_schedule , model_output_transform = trainer . model_output_transform )

# Generate images
samples = sampler . generate_images ( num_images = 64 , diffusion_steps = 100 , start_step = 1000 , end_step = 0 )
plotImages ( samples , dpi = 300 )

참고 문헌 및 승인

연구 논문 및 전 프리 인쇄

최초의 거부 확산 확률 모델 (DDPM) 용지
DDIM (Deenoing Defusion Clomplicit Models) 용지
비난 확산 확률 모델 용지 향상
확산 모델은 이미지 합성 용지에서 GAN을 이겼습니다
확률 적 미분 방정식 용지를 통한 점수 기반 생성 모델링
확산 기반 생성 모델 (EDM) 용지의 설계 공간 설명
인식 확산 모델 (P2 가중치) 용지의 교육 우선 순위를 정했습니다
매니 폴드 (PNMDM) 종이의 확산 모델에 대한 의사 수치 방법
DPM-Solver : 확산 확률 모델 샘플링을위한 빠른 ODE 솔버.

유용한 블로그 및 코드베이스

Sander Dieleman의 다양한 확산 관련 주제에 대한 놀라운 일련의 블로그. 특히 확산 모델, 전형성, 확산 지침 지형 및 소음 일정에 대한 게시물은 읽어야합니다.
Tony Duan의 확산 모델에 대한 멋진 블로그 시리즈. MNIST 모델을 훈련시키고 구현은 약간 기본적이지만 수학은 아주 좋은 방법으로 설명됩니다. 코드베이스가 여기 있습니다
K-divifusion 코드베이스 Katherine Crowson은 Pytorch의 DPM-Solver, DPM-Solver ++ (2S 및 2M)와 함께 EDM 용지 (Karras et al)의 철저한 구현을 주최합니다. 대부분의 다른 확산 라이브러리는 이것으로부터 빌린다.
Pytorch의 Tero Karras의 공식 EDM 구현. 모든 Karras 기반 샘플러/일정에 대한 깔끔한 코드와 참조 구현.
Hugging Face Diffusers Library는 아마도이 분야의 최신 최신 기술 및 개념에 대한 가장 완전한 구현 세트입니다. 주로 Pytorch에 작성되었지만 많은 개념을 위해 아마 구현을 사용할 수있게 되면서이 저장소의 초점은 완전성과 이해의 용이성에 있습니다.
A_K Nain의 Keras DDPM 튜토리얼과 András Béres의 Keras DDim 구현은 초보자가 확산 모델의 기본 사항을 이해하기에 좋은 출발점입니다. 이 튜토리얼에서 소개 된 개념을 처음부터 구현하려고 노력하여 여행을 시작했습니다.
내 의심을 없애는 데 도움을 준 Openai의 Chatgpt-4에게 특별한 감사를드립니다.

할 일이 목록에 보류 중입니다

DPM/DPM2/DPM ++ 등과 같은 고급 솔버
현재 ODE Solvers의 SDE 버전, 즉 조상 샘플링
텍스트 조절 이미지 생성
분류기 및 분류 된 무료 지침

갱도

200 단계에서 Euler Ancestral Sampler에 의해 생성 된 이미지 [CFG와의 Text2image]

Laion-Aesthetics 12m + CC12m + MS Coco + 1M 미학적 6+ 6+ 코요 -700m의 코요 -700m의 하위 집합 : a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful landscape with a river with mountains, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a beautiful forest with a river and sunlight, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden, a big mansion with a garden

매개 변수 : Dataset: Laion-Aesthetics 12M + CC12M + MS COCO + 1M aesthetic 6+ subset of COYO-700M Batch size: 256 Image Size: 128 Training Epochs: 5 Steps per epoch: 74573 Model Configurations: feature_depths=[128, 256, 512, 1024]

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

CFG를 가진 Eulera

200 단계에서 Euler Ancestral Sampler에 의해 생성 된 이미지 [CFG와의 Text2image]

다음과 같은 프롬프트에 의해 생성 된 이미지가 지침 요소를 사용하여 무료 지침을 사용하여 다음과 같은 프롬프트 = 2 : 'water tulip, a water lily, a water lily, a water lily, a photo of a marigold, a water lily, a water lily, a photo of a lotus, a photo of a lotus, a photo of a lotus, a photo of a rose, a photo of a rose, a photo of a rose, a photo of a rose, a photo of a rose'

매개 변수 : Dataset: oxford_flowers102 Batch size: 16 Image Size: 128 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

CFG를 가진 Eulera

200 단계에서 Euler Ancestral Sampler에 의해 생성 된 이미지 [CFG와의 Text2image]

다음과 같은 프롬프트에 의해 생성 된 이미지가 지침 요소를 사용하여 무료 지침 = 4 : 'water tulip, a water lily, a water lily, a photo of a rose, a photo of a rose, a water lily, a water lily, a photo of a marigold, a photo of a marigold, a photo of a marigold, a water lily, a photo of a sunflower, a photo of a lotus, columbine, columbine, an orchid, an orchid, an orchid, a water lily, a water lily, a water lily, columbine, columbine, a photo of a sunflower, a photo of a sunflower, a photo of a sunflower, a photo of a lotus, a photo of a lotus, a photo of a marigold, a photo of a marigold, a photo of a rose, a photo of a rose, a photo of a rose, orange dahlia, orange dahlia, a lenten rose, a lenten rose, a water lily, a water lily, a water lily, a water lily, an orchid, an orchid, an orchid, hard-leaved pocket orchid, bird of paradise, bird of paradise, a photo of a lovely rose, a photo of a lovely rose, a photo of a globe-flower, a photo of a globe-flower, a photo of a lovely rose, a photo of a lovely rose, a photo of a ruby-lipped cattleya, a photo of a ruby-lipped cattleya, a photo of a lovely rose, a water lily, a osteospermum, a osteospermum, a water lily, a water lily, a water lily, a red rose, a red rose'

매개 변수 : Dataset: oxford_flowers102 Batch size: 16 Image Size: 128 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

CFG를 가진 Eulera

1000 단계에서 DDPM 샘플러에 의해 생성 된 이미지 [무조건]

매개 변수 : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: CosineNoiseSchedule Inference Noise Schedule: CosineNoiseSchedule

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

DDPM 샘플러 결과

1000 단계에서 DDPM 샘플러에 의해 생성 된 이미지 [무조건]

매개 변수 : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: CosineNoiseSchedule Inference Noise Schedule: CosineNoiseSchedule

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

DDPM 샘플러 결과

HEON 샘플러에서 생성 된 이미지 10 단계 (HEON이 2X 추론 단계를 수행함에 따라 20 가지 모델 추론) [무조건]

매개 변수 : Dataset: oxford_flowers102 Batch size: 16 Image Size: 64 Training Epochs: 1000 Steps per epoch: 511

Training Noise Schedule: EDMNoiseScheduler Inference Noise Schedule: KarrasEDMPredictor

Model: UNet(emb_features=256, feature_depths=[64, 128, 256, 512], attention_configs=[{"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}, {"heads":4}], num_res_blocks=2, num_middle_res_blocks=1)

heun 샘플러 결과

기부금

문제를 열거 나 풀 요청을 제출하여 자유롭게 기여하십시오. Flaxdiff를 더 잘 만들어 보자!

특허

이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-03-10
크기 86.08MB
출처 Github