Proyecto | Papel | Diapositivas | Colab-Fid | Colab-Risización | Mesas de tabla de clasificación
Inicio rápido: Calcular FID | Calcular el niño
[Nuevo] Calculación de la FID usando las características del clip [Kynkäänniemi et al, 2022] ahora es compatible. Vea aquí para más detalles.
El cálculo de FID implica muchos pasos que pueden producir inconsistencias en la métrica final. Como se muestra a continuación, diferentes implementaciones utilizan diferentes funciones de cuantificación de imágenes de bajo nivel y cambio de tamaño, este último a menudo se implementan incorrectamente.
Proporcionamos una biblioteca fácil de usar para abordar los problemas anteriores y hacer que los puntajes FID sean comparables en diferentes métodos, documentos y grupos.
Sobre cambio de tamaño alias y supletas sorprendentes en la evaluación de GaN
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU y Adobe
Si encuentra útil este repositorio para su investigación, cite el siguiente trabajo.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
Operaciones de cambio de tamaño de alias
Las definiciones de las funciones de cambio de tamaño son matemáticas y nunca deben ser una función de la biblioteca que se utiliza . Desafortunadamente, las implementaciones difieren entre las bibliotecas de uso común. A menudo son implementados incorrectamente por bibliotecas populares. Pruebe las diferentes implementaciones de cambio de tamaño en el cuaderno de Google Colab aquí.
Las inconsistencias entre las implementaciones pueden tener un efecto drástico de las métricas de evaluaciones. La siguiente tabla muestra que las imágenes del conjunto de datos FFHQ se redimensionan con la implementación bicúbica de otras bibliotecas (OpenCV, Pytorch, TensorFlow, OpenCV) tienen una gran puntuación FID (≥ 6) en comparación con las mismas imágenes cambias de tamaño con el filtro Pil-bicúcico implementado correctamente. Otros filtros implementados correctamente de PIL (Lanczos, Bilineal, Box) dan como resultado una puntuación FID relativamente menor (≤ 0.75). Tenga en cuenta que desde TF 2.0, la nueva bandera antialias (predeterminada: False ) puede producir resultados cercanos a PIL. Sin embargo, no se usó en el repositorio TF-FID existente y se estableció como False de forma predeterminada.
Compresión de imagen jpeg
La compresión de la imagen puede tener un efecto sorprendentemente grande en FID. Las imágenes son perceptualmente indistinguibles entre sí, pero tienen una gran puntuación FID. Las puntuaciones FID en las imágenes se calculan entre todas las imágenes FFHQ guardadas utilizando el formato JPEG correspondiente y el formato PNG.
A continuación, estudiamos el efecto de la compresión JPEG para los modelos StyleGan2 entrenados en el conjunto de datos FFHQ (izquierda) y el conjunto de datos de la iglesia al aire libre LSUN (derecha). Tenga en cuenta que las imágenes del conjunto de datos LSUN se recopilaron con compresión JPEG (calidad 75), mientras que las imágenes FFHQ se recopilaron como PNG. Curiosamente, para el conjunto de datos LSUN, el mejor puntaje FID (3.48) se obtiene cuando las imágenes generadas se comprimen con la calidad JPEG 87.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
Para usar las características del clip al calcular el FID [Kynkäänniemi et al, 2022], especifique el modelo model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
La puntuación KID se puede calcular utilizando una interfaz similar a FID. Las estadísticas del conjunto de datos para Kid solo tienen precomputas para conjuntos de datos más pequeños AFHQ , BreCaHAD y MetFaces .
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
Proporcionamos estadísticas de precomputo para las siguientes configuraciones de uso común. Póngase en contacto con nosotros si desea agregar estadísticas para sus nuevos conjuntos de datos.
| Tarea | Conjunto de datos | Resolución | División de referencia | # Imágenes de referencia | modo |
|---|---|---|---|---|---|
| Generación de imágenes | cifar10 | 32 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | cifar10 | 32 | test | 10,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | ffhq | 1024, 256 | trainval | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | ffhq | 1024, 256 | trainval70k | 70,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | lsun_church | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | lsun_church | 256 | trainfull | 126,227 | clean |
| Generación de imágenes | lsun_horse | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | lsun_horse | 256 | trainfull | 2,000,340 | clean |
| Generación de imágenes | lsun_cat | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| Generación de imágenes | lsun_cat | 256 | trainfull | 1.657,264 | clean , legacy_tensorflow , legacy_pytorch |
| Pocas generación de disparos | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| Pocas generación de disparos | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| Pocas generación de disparos | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| Pocas generación de disparos | brecahad | 512 | train | 1944 | clean , legacy_tensorflow , legacy_pytorch |
| Pocas generación de disparos | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| Imagen a imagen | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| Imagen a imagen | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
Utilizando estadísticas precomputadas para calcular la puntuación FID con las estadísticas del conjunto de datos precomputados, use las opciones correspondientes. Por ejemplo, para calcular la puntuación Clean-FID en las imágenes FFHQ generadas de 256x256 use el comando:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
dataSet_path : carpeta donde se almacenan las imágenes del conjunto de datos
Custom_Name : Nombre para ser utilizado para las estadísticas
Generación de estadísticas personalizadas (guardadas en caché local)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
Utilizando las estadísticas personalizadas generadas
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
Eliminar las estadísticas personalizadas
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
Verifique si ya existe una estadística personalizada
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
Proporcionamos dos banderas para reproducir la partitura Legacy FID.
mode="legacy_pytorch"
Esta bandera es equivalente a usar la popular implementación de Pytorch FID proporcionada aquí
La diferencia entre usar Clean-Fid con esta opción y código es ~ 2E-06
Ver Doc sobre cómo se comparan los métodos
mode="legacy_tensorflow"
Esta bandera es equivalente a utilizar la implementación oficial de FID lanzada por los autores.
La diferencia entre usar Clean-Fid con esta opción y código es ~ 2E-05
Consulte el documento para obtener pasos detallados sobre cómo se comparan los métodos
python setup.py bdist_wheel
pip install dist/*
Calculamos los puntajes FID utilizando los métodos correspondientes utilizados en los documentos originales y utilizando el FID limpio propuesto aquí. Todos los valores se calculan utilizando 10 ejecuciones de evaluación. Proporcionamos una API para consultar los resultados que se muestran en las tablas a continuación directamente del paquete PIP.
Si desea agregar nuevos números y modelos a nuestra clasificación, no dude en contactarnos.
El conjunto test se utiliza como distribución de referencia y se compara con las imágenes generadas por 10k.
100% Datos (incondicional)
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 ( + ADA + Tuning) [Karras et al, 2020] | - † | - † | 8.20 ± 0.10 |
| Stylegan2 (+ADA) [Karras et al, 2020] | - † | - † | 9.26 ± 0.06 |
| stylegan2 (diff-augment) [Zhao et al, 2020] [CKPT] | 9.89 | 9.90 ± 0.09 | 10.85 ± 0.10 |
| Stylegan2 (espejo) [Karras et al, 2020] [CKPT] | 11.07 | 11.07 ± 0.10 | 12.96 ± 0.07 |
| stylegan2 (sin flips) [Karras et al, 2020] | - † | - † | 14.53 ± 0.13 |
| Autogan (config a) [Gong et al, 2019] | - † | - † | 21.18 ± 0.12 |
| Autogan (config B) [Gong et al, 2019] | - † | - † | 22.46 ± 0.15 |
| Autogan (config C) [Gong et al, 2019] | - † | - † | 23.62 ± 0.30 |
† Estos métodos utilizan el conjunto de capacitación como distribución de referencia y se comparan con imágenes generadas de 50k
20% de datos
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 12.15 | 12.12 ± 0.15 | 14.18 ± 0.13 |
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 23.08 | 23.01 ± 0.19 | 29.49 ± 0.17 |
10% de datos
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 14.50 | 14.53 ± 0.12 | 16.98 ± 0.18 |
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 36.02 | 35.94 ± 0.17 | 43.60 ± 0.17 |
El conjunto test se utiliza como distribución de referencia y se compara con las imágenes generadas por 10k.
100% datos
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 16.54 | 16.44 ± 0.19 | 18.44 ± 0.24 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 15.22 | 15.15 ± 0.13 | 16.80 ± 0.13 |
20% de datos
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 32.30 | 32.26 ± 0.19 | 34.88 ± 0.14 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 16.65 | 16.74 ± 0.10 | 18.49 ± 0.08 |
10% de datos
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 45.87 | 45.97 ± 0.20 | 46.77 ± 0.19 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 20.75 | 20.69 ± 0.12 | 23.40 ± 0.09 |
Todas las imágenes @ 1024x1024
Los valores se calculan utilizando imágenes generadas de 50k
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio | División de referencia |
|---|---|---|---|---|
| stylegan1 (config a) [Karras et al, 2020] | 4.4 | 4.39 ± 0.03 | 4.77 ± 0.03 | trainval |
| stylegan2 (config b) [Karras et al, 2020] | 4.39 | 4.43 ± 0.03 | 4.89 ± 0.03 | trainval |
| stylegan2 (config c) [Karras et al, 2020] | 4.38 | 4.40 ± 0.02 | 4.79 ± 0.02 | trainval |
| stylegan2 (config d) [Karras et al, 2020] | 4.34 | 4.34 ± 0.02 | 4.78 ± 0.03 | trainval |
| stylegan2 (config e) [Karras et al, 2020] | 3.31 | 3.33 ± 0.02 | 3.79 ± 0.02 | trainval |
| stylegan2 (config f) [Karras et al, 2020] [CKPT] | 2.84 | 2.83 +- 0.03 | 3.06 +- 0.02 | trainval |
| Stylegan2 [Karras et al, 2020] [CKPT] | N / A | 2.76 ± 0.03 | 2.98 ± 0.03 | trainval70k |
140K - Imágenes @ 256x256 (conjunto de entrenamiento completo con flips horizontales) Las imágenes 70K del conjunto trainval70k se usan como imágenes de referencia y en comparación con las imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| ZCR [Zhao et al, 2020] † | 3.45 ± 0.19 | 3.29 ± 0.01 | 3.40 ± 0.01 |
| stylegan2 [Karras et al, 2020] † | 3.66 ± 0.10 | 3.57 ± 0.03 | 3.73 ± 0.03 |
| PA-Gan [Zhang y Khoreva et al, 2019] † | 3.78 ± 0.06 | 3.67 ± 0.03 | 3.81 ± 0.03 |
| Stylegan2-Aad [Karras et al, 2020] † | 3.88 ± 0.13 | 3.84 ± 0.02 | 3.93 ± 0.02 |
| Rotación auxiliar [Chen et al, 2019] † | 4.16 ± 0.05 | 4.10 ± 0.02 | 4.29 ± 0.03 |
| Descarga adaptativa [Karras et al, 2020] † | 4.16 ± 0.05 | 4.09 ± 0.02 | 4.20 ± 0.02 |
| Norma espectral [Miyato et al, 2018] † | 4.60 ± 0.19 | 4.43 ± 0.02 | 4.65 ± 0.02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6.54 ± 0.37 | 6.19 ± 0.03 | 6.62 ± 0.03 |
† Informado por [Karras et al, 2020]
30K - Imágenes @ 256x256 (pocas generaciones de disparos)
Las imágenes 70K del conjunto de trainval70k se usan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 6.16 | 6.14 ± 0.064 | 6.49 ± 0.068 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 5.05 | 5.07 ± 0.030 | 5.18 ± 0.032 |
10k - Imágenes @ 256x256 (pocas generaciones de disparos)
Las imágenes 70K del conjunto de trainval70k se usan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 14.75 | 14.88 ± 0.070 | 16.04 ± 0.078 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 7.86 | 7.82 ± 0.045 | 8.12 ± 0.044 |
5K - Imágenes @ 256x256 (pocas generaciones de disparos)
Las imágenes 70K del conjunto de trainval70k se usan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 26.60 | 26.64 ± 0.086 | 28.17 ± 0.090 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 10.45 | 10.45 ± 0.047 | 10.99 ± 0.050 |
1K - Imágenes @ 256x256 (pocas generaciones de disparos)
Las imágenes 70K del conjunto de trainval70k se usan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 62.16 | 62.14 ± 0.108 | 64.17 ± 0.113 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 25.66 | 25.60 ± 0.071 | 27.26 ± 0.077 |
100% datos
Las imágenes de 50k del conjunto train se usan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Categoría | Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|---|
| Iglesias al aire libre | Stylegan2 [Karras et al, 2020] [CKPT] | 3.86 | 3.87 ± 0.029 | 4.08 ± 0.028 |
| Caballos | Stylegan2 [Karras et al, 2020] [CKPT] | 3.43 | 3.41 ± 0.021 | 3.62 ± 0.023 |
| Gato | Stylegan2 [Karras et al, 2020] [CKPT] | 6.93 | 7.02 ± 0.039 | 7.47 ± 0.035 |
LSUN CAT - Imágenes de 30k (pocas generaciones de disparos)
Las 1.657.264 imágenes de trainfull Split se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 10.12 | 10.15 ± 0.04 | 10.87 ± 0.04 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 9.68 | 9.70 ± 0.07 | 10.25 ± 0.07 |
LSUN CAT - 10K Imágenes (pocas generaciones de disparos)
Las 1.657.264 imágenes de trainfull Split se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 17.93 | 17.98 ± 0.09 | 18.71 ± 0.09 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 12.07 | 12.04 ± 0.08 | 12.53 ± 0.08 |
LSUN CAT - Imágenes de 5k (pocas generaciones de disparos)
Las 1.657.264 imágenes de trainfull Split se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 34.69 | 34.66 ± 0.12 | 35.85 ± 0.12 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 16.11 | 16.11 ± 0.09 | 16.79 ± 0.09 |
LSUN CAT - 1K Imágenes (pocas generaciones de disparos)
Las 1.657.264 imágenes de trainfull Split se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 182.85 | 182.80 ± 0.21 | 185.86 ± 0.21 |
| stylegan2-diff-augment [Zhao et al, 2020] [CKPT] | 42.26 | 42.07 ± 0.16 | 43.12 ± 0.16 |
Perro afhq
Todas las imágenes 4739 de la división train se utilizan como imágenes de referencia y se comparan con las imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 19.37 | 19.34 ± 0.08 | 20.10 ± 0.08 |
| Stylegan2-Aad [Karras et al, 2020] [CKPT] | 7.40 | 7.41 ± 0.02 | 7.61 ± 0.02 |
Afhq salvaje
Las 4738 imágenes de la división train se utilizan como imágenes de referencia y se comparan con las imágenes generadas de 50k.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 3.48 | 3.55 ± 0.03 | 3.66 ± 0.02 |
| Stylegan2-Aad [Karras et al, 2020] [CKPT] | 3.05 | 3.01 ± 0.02 | 3.03 ± 0.02 |
Todas las imágenes de 1944 de la división train se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado DEFENSOR (reportado) | Legado DEFENSOR (reproducido) | Limpio | Legado NIÑO (reportado) 10^3 | Legado NIÑO (reproducido) 10^3 | Limpio NIÑO 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 97.72 | 97.46 ± 0.17 | 98.35 ± 0.17 | 89.76 | 89.90 ± 0.31 | 92.51 ± 0.32 |
| Stylegan2-Aad [Karras et al, 2020] [CKPT] | 15.71 | 15.70 ± 0.06 | 15.63 ± 0.06 | 2.88 | 2.93 ± 0.08 | 3.08 ± 0.08 |
Las 1336 imágenes de la división train se utilizan como imágenes de referencia y se comparan con imágenes generadas de 50k.
| Modelo | Legado DEFENSOR (reportado) | Legado DEFENSOR (reproducido) | Limpio | Legado NIÑO (reportado) 10^3 | Legado NIÑO (reproducido) 10^3 | Limpio NIÑO 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 57.26 | 57.36 ± 0.10 | 65.74 ± 0.11 | 35.66 | 35.69 ± 0.16 | 40.90 ± 0.14 |
| Stylegan2-Aad [Karras et al, 2020] [CKPT] | 18.22 | 18.18 ± 0.03 | 19.60 ± 0.03 | 2.41 | 2.38 ± 0.05 | 2.86 ± 0.04 |
Las 140 imágenes de la división test se utilizan como imágenes de referencia y se comparan con 120 imágenes traducidas.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Corte [Park et al, 2020] | 45.5 | 45.51 | 43.71 |
| Distancia [Benaim y Wolf et al, 2017] informado por [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al, 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017] informado por [Park et al, 2020] | 77.2 | 77.20 | 75.17 |
| Selfdistance [Benaim y Wolf et al, 2017] informado por [Park et al, 2020] | 80.8 | 80.78 | 79.28 |
| GCGAN [Fu et al, 2019] informado por [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] informado por [Park et al, 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al, 2017] informado por [Park et al, 2020] | 140.0 | - † | 99.56 |
† Las imágenes traducidas para estos métodos fueron comparadas intitialmente por [Park et al, 2020] utilizando la compresión .jpeg. Entrena estos dos métodos utilizando el mismo protocal y generamos las imágenes que .png para una comparación justa.
Las 500 imágenes de la división test se utilizan como imágenes de referencia y se comparan con 500 imágenes traducidas.
| Modelo | Legado (reportado) | Legado (reproducido) | Limpio |
|---|---|---|---|
| Corte [Park et al, 2020] | 76.2 | 76.21 | 77.58 |
| Fastcut [Park et al, 2020] | 94.0 | 93.95 | 95.37 |
| GCGAN [Fu et al, 2019] informado por [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] informado por [Park et al, 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al, 2017] informado por [Park et al, 2020] | 123.4 | - † | 127.21 |
| Selfdistance [Benaim y Wolf et al, 2017] informado por [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| Distancia [Benaim y Wolf et al, 2017] informado por [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
† Las imágenes traducidas para estos métodos fueron comparadas intitialmente por [Park et al, 2020] utilizando la compresión .jpeg. Entrena estos dos métodos utilizando el mismo protocal y generamos las imágenes que .png para una comparación justa.
Fidelidad de antorcha: métricas de rendimiento de alta fidelidad para modelos generativos en Pytorch.
Ttur: dos regla de actualización a escala de tiempo para Gans de capacitación.
LPIPS: métrica de similitud perceptiva y conjunto de datos.
Todo el material en este repositorio está disponible bajo la licencia MIT.
Inception_pytorch.py se deriva de la implementación de Pytorch de FID proporcionada por Maximilian Seitzer. Estos archivos se compartieron originalmente bajo la licencia Apache 2.0.
Inception-2015-12-05.PT es un modelo antorchscript de la red de inicio-V3 previamente entrenada por Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens y Zbigniew Wojna. La red se compartió originalmente bajo la licencia Apache 2.0 en el repositorio de modelos TensorFlow. Tero Karras y Miika Aittala y Janne Hellsten y Samuli Laine y Jaakko Lehtinen y Timo Aila, que se lanza bajo la Licencia de Código de Nvidia.