Image Super Resolution via Iterative Refinement

Image Super Resolution via Iterative Refinement

Pitón

1.0.0

Descargar

Imagen Super-Resolución a través del refinamiento iterativo

Papel | Proyecto

Breve

Esta es una implementación no oficial de la súper resolución de la imagen a través del refinamiento iterativo (SR3) por Pytorch .

Hay algunos detalles de implementación que pueden variar de la descripción del documento, que puede ser diferente de la estructura SR3 real debido a los detalles faltantes. Específicamente, nosotros:

Usé el bloque ResNet y el estilo de concatenación del canal como Vanilla DDPM .
Usó el mecanismo de atención en características de baja resolución ( $ 16 veces 16 $ ) como Vanilla DDPM .
Codificar el $ gamma $ Como la estructura FilM lo hizo en WaveGrad , y la incrustó sin transformación afina.
Defina la varianza posterior como $ dfrac {1- gamma_ {t-1}} {1- gamma_ {t}} beta_t $ en vez de $ beta_t $ , que da resultados similares al papel de vainilla.

Si solo quieres excluir $ (64 Times 64) text {PX} rectarrow (512 times 512) text {px} $ Imágenes utilizando el modelo previamente capacitado, consulte este script de Google Colab.

Estado

★★★ NUEVO: La paleta de seguimiento-imagen a la imagen-modelos de difusión ya está disponible; Vea los detalles aquí ★★★

Generación condicional (con super resolución)

16 × 16 -> 128 × 128 en FFHQ -Velebahq
64 × 64 -> 512 × 512 en FFHQ -Velebahq

Generación incondicional

128 × 128 Generación de cara en FFHQ
~~1024 × 1024 generación de caras por una cascada de 3 modelos~~

Paso de entrenamiento

registro / registrador
evaluación de métricas
soporte multi-GPU
Reanudar la capacitación / modelo de petróleo
Validar el script solo
Pesos y prejuicios de registro? NUEVO

Resultados

Nota: Establecimos el presupuesto máximo de pasos inversos para $ 2000 $ . Limitamos los parámetros del modelo en Nvidia 1080Ti , el ruido de la imagen y la desviación del tono ocasionalmente aparecen en imágenes de alta resolución, lo que resulta en puntajes bajos. Hay mucho espacio para la optimización. Somos bienvenidos a cualquier contribución para experimentos más extensos y mejoras de código.

Tareas/métricas	SSIM (+)	PSNR (+)	DEFENSOR(-)	Es (+)
16 × 16 -> 128 × 128	0.675	23.26	-	-
64 × 64 -> 512 × 512	0.445	19.87	-	-
128 × 128	-	-
1024 × 1024	-	-

16 × 16 -> 128 × 128 en FFHQ -Velebahq [más resultados]

64 × 64 -> 512 × 512 en FFHQ -Velebahq [más resultados]

128 × 128 Generación de caras en FFHQ [más resultados]

Uso

Ambiente

 pip install - r requirement . txt

Modelo previamente

Este documento se basa en "modelos probabilísticos de difusión de difusión", y construimos estructuras de red DDPM/SR3, que utilizan TimesPs/Gamma como entradas de incrustación de modelo, respectivamente. En nuestros experimentos, el modelo SR3 puede lograr mejores resultados visuales con los mismos pasos inversos y la tasa de aprendizaje. Puede seleccionar los archivos JSON con nombres de sufijo anotados para entrenar los diferentes modelos.

Tareas	Plataforma （Código: Qwer)
16 × 16 -> 128 × 128 en FFHQ -Velebahq	Google Drive \| Baidu Yun
64 × 64 -> 512 × 512 en FFHQ -Velebahq	Google Drive \| Baidu Yun
128 × 128 Generación de cara en FFHQ	Google Drive \| Baidu Yun

 # Download the pretrained model and edit [sr|sample]_[ddpm|sr3]_[resolution option].json about "resume_state":
"resume_state" : [ your pretrained model ' s path ]

Los datos se preparan

Nuevo comienzo

Si no tenía los datos, puede prepararlos siguiendo pasos:

FFHQ 128 × 128 | FFHQ 512 × 512
CelebAHQ 256 × 256 | Celebamask-HQ 1024 × 1024

Descargue el conjunto de datos y prepárelo en formato LMDB o PNG usando script.

 # Resize to get 16×16 LR_IMGS and 128×128 HR_IMGS, then prepare 128×128 Fake SR_IMGS by bicubic interpolation
python data / prepare_data . py  - - path [ dataset root ]  - - out [ output root ] - - size 16 , 128 - l

Luego debe cambiar la configuración de conjuntos de datos a su ruta de datos y resolución de imágenes:

 "datasets" : {
    "train" : {
        "dataroot" : " dataset/ffhq_16_128 " , // [output root] in prepare.py script
        "l_resolution" : 16 , // low resolution need to super_resolution
        "r_resolution" : 128 , // high resolution
        "datatype" : " lmdb " , //lmdb or img, path of img files
    },
    "val" : {
        "dataroot" : " dataset/celebahq_16_128 " , // [output root] in prepare.py script
    }
},

Datos propios

También puede usar los datos de su imagen siguiendo los pasos, y tenemos algunos ejemplos en la carpeta del conjunto de datos.

Al principio, debe organizar el diseño de imágenes de esta manera, este paso puede ser terminado mediante data/prepare_data.py automáticamente:

 # set the high/low resolution images, bicubic interpolation images path 
dataset/celebahq_16_128/
├── hr_128 # it's same with sr_16_128 directory if you don't have ground-truth images.
├── lr_16 # vinilla low resolution images
└── sr_16_128 # images ready to super resolution

 # super resolution from 16 to 128
python data / prepare_data . py  - - path [ dataset root ]  - - out celebahq - - size 16 , 128 - l

Nota: El script anterior se puede utilizar si tiene las imágenes de alta resolución de vainilla o no.

Luego debe cambiar la configuración del conjunto de datos a su ruta de datos y su resolución de imagen:

 "datasets" : {
    "train|val" : { // train and validation part
        "dataroot" : " dataset/celebahq_16_128 " ,
        "l_resolution" : 16 , // low resolution need to super_resolution
        "r_resolution" : 128 , // high resolution
        "datatype" : " img " , //lmdb or img, path of img files
    }
},

Capacitación/capacitación de currículum

 # Use sr.py and sample.py to train the super resolution task and unconditional generation task, respectively.
# Edit json files to adjust network structure and hyperparameters
python sr . py - p train - c config / sr_sr3 . json

Prueba/evaluación

 # Edit json to add pretrain model path and run the evaluation 
python sr . py - p val - c config / sr_sr3 . json

# Quantitative evaluation alone using SSIM/PSNR metrics on given result root
python eval . py - p [ result root ]

Inferencia sola

Establezca la ruta de imagen como pasos en Own Data , luego ejecute el script:

 # run the script
python infer . py - c [ config file ]

Pesas y prejuicios?

La biblioteca ahora admite el seguimiento del experimento, el punto de control del modelo y la visualización de predicción del modelo con pesos y sesgos. Deberá instalar W&B e iniciar sesión utilizando su token de acceso.

 pip install wandb

# get your access token from wandb.ai/authorize
wandb login

La funcionalidad de registro de W&B se agrega a los archivos sr.py , sample.py e infer.py . Puede pasar -enable_wandb para comenzar a registrarse.

-log_wandb_ckpt : pase este argumento junto con -enable_wandb para guardar los puntos de control del modelo como artefactos W&B. Tanto sr.py como sample.py están habilitados con el punto de control del modelo.
-log_eval : pase este argumento junto con -enable_wandb para guardar el resultado de la evaluación como tablas W&B interactivas. Tenga en cuenta que solo sr.py está habilitado con esta función. Si ejecuta sample.py en modo eval, las imágenes generadas se registrarán automáticamente como panel de medios de imagen.
-log_infer : mientras se ejecuta infer.py pase este argumento junto con -enable_wandb para registrar los resultados de inferencia como tablas W&B interactivas.

Puede encontrar más sobre el uso de estas funciones aquí.

Expresiones de gratitud

Nuestro trabajo se basa en los siguientes trabajos teóricos:

Modelos probabilísticos de difusión de renovación
Imagen Super-Resolución a través del refinamiento iterativo
Wavegrad: estimación de gradientes para la generación de forma de onda
Entrenamiento GaN a gran escala para la síntesis de imágenes naturales de alta fidelidad

Además, estamos beneficiando mucho de los siguientes proyectos: