Projet | Papier | Diapositives | Colab-fid | Colab-Réizaine | Tables de classement
Démarrage rapide: Calculez FID | Calculer
[Nouveau] Le calcul du FID à l'aide de fonctionnalités de clip [Kynkäänniemi et al, 2022] est maintenant pris en charge. Voir ici pour plus de détails.
Le calcul du FID implique de nombreuses étapes qui peuvent produire des incohérences dans la métrique finale. Comme indiqué ci-dessous, différentes implémentations utilisent différentes fonctions de quantification d'image et de redimensionnement de bas niveau, ces derniers sont souvent implémentés de manière incorrecte.
Nous fournissons une bibliothèque facile à utiliser pour résoudre les problèmes ci-dessus et rendre les scores FID comparables sur différentes méthodes, articles et groupes.
Sur le redimensionnement aliasé et les subtilités surprenantes dans l'évaluation GAN
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU et Adobe
Si vous trouvez ce référentiel utile pour vos recherches, veuillez citer les travaux suivants.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
Opérations de redimensionnement aliasées
Les définitions des fonctions de redimensionnement sont mathématiques et ne devraient jamais être une fonction de la bibliothèque utilisée . Malheureusement, les implémentations diffèrent d'une bibliothèque couramment utilisée. Ils sont souvent mis en œuvre incorrectement par des bibliothèques populaires. Essayez les différentes implémentations de redimensionnement dans le cahier Google Colab ici.
Les incohérences entre les implémentations peuvent avoir un effet drastique des mesures d'évaluations. Le tableau ci-dessous montre que les images d'ensemble de données FFHQ redimensionnées avec l'implémentation bicubique d'autres bibliothèques (OpenCV, Pytorch, Tensorflow, OpenCV) ont un grand score FID (≥ 6) par rapport aux mêmes images redimensionnées avec le filtre Pil-Bicubic correctement implémenté. D'autres filtres correctement mis en œuvre de PIL (Lanczos, Bilinear, Box) entraînent tous un score FID relativement plus petit (≤ 0,75). Notez que depuis TF 2.0, le nouveau drapeau antialias (par défaut: False ) peut produire des résultats proches de PIL. Cependant, il n'a pas été utilisé dans le repo TF-FID existant et défini comme False par défaut.
Compression d'image JPEG
La compression d'image peut avoir un effet étonnamment important sur le FID. Les images sont perceptuellement indiscernables les unes des autres mais ont un grand score FID. Les scores FID sous les images sont calculés entre toutes les images FFHQ enregistrées à l'aide du format JPEG correspondant et du format PNG.
Ci-dessous, nous étudions l'effet de la compression JPEG pour les modèles Stylegan2 formés sur l'ensemble de données FFHQ (à gauche) et le jeu de données de l'église extérieur LSUN (à droite). Notez que les images de l'ensemble de données LSUN ont été collectées avec la compression JPEG (qualité 75), tandis que les images FFHQ ont été collectées en PNG. Fait intéressant, pour l'ensemble de données LSUN, le meilleur score FID (3,48) est obtenu lorsque les images générées sont compressées avec JPEG Quality 87.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
Pour utiliser les fonctionnalités du clip lors du calcul du FID [Kynkäänniemi et al, 2022], spécifiez le Flag model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
Le score KID peut être calculé en utilisant une interface similaire à celle de FID. Les statistiques de l'ensemble de données pour l'enfant ne sont précomputées que pour les ensembles de données plus petits AFHQ , BreCaHAD et MetFaces .
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
Nous fournissons des statistiques de précompute pour les configurations couramment utilisées. Veuillez nous contacter si vous souhaitez ajouter des statistiques pour vos nouveaux ensembles de données.
| Tâche | Ensemble de données | Résolution | Références de référence | # Images de référence | mode |
|---|---|---|---|---|---|
| Génération d'images | cifar10 | 32 | train | 50 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | cifar10 | 32 | test | 10 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | ffhq | 1024, 256 | trainval | 50 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | ffhq | 1024, 256 | trainval70k | 70 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | lsun_church | 256 | train | 50 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | lsun_church | 256 | trainfull | 126 227 | clean |
| Génération d'images | lsun_horse | 256 | train | 50 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | lsun_horse | 256 | trainfull | 2 000 340 | clean |
| Génération d'images | lsun_cat | 256 | train | 50 000 | clean , legacy_tensorflow , legacy_pytorch |
| Génération d'images | lsun_cat | 256 | trainfull | 1 657 264 | clean , legacy_tensorflow , legacy_pytorch |
| Peu de génération de tirs | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| Peu de génération de tirs | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| Peu de génération de tirs | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| Peu de génération de tirs | brecahad | 512 | train | 1944 | clean , legacy_tensorflow , legacy_pytorch |
| Peu de génération de tirs | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| Image à l'image | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| Image à l'image | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
En utilisant des statistiques précomputées afin de calculer le score FID avec les statistiques de l'ensemble de données précomputées, utilisez les options correspondantes. Par exemple, pour calculer le score de fidélité propre sur les images générées de 256x256 FFHQ Utilisez la commande:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
DataSet_Path : dossier où les images de l'ensemble de données sont stockées
Custom_name : nom à utiliser pour les statistiques
Génération de statistiques personnalisées (enregistrées sur le cache local)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
En utilisant les statistiques personnalisées générées
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
Supprimer les statistiques personnalisées
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
Vérifiez si une statistique personnalisée existe déjà
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
Nous fournissons deux drapeaux pour reproduire le score du FID hérité.
mode="legacy_pytorch"
Ce drapeau équivaut à l'utilisation de l'implémentation populaire de Pytorch FID fournie ici
La différence entre l'utilisation de la fidélité propre avec cette option et le code est ~ 2E-06
Voir Doc pour savoir comment les méthodes sont comparées
mode="legacy_tensorflow"
Ce drapeau équivaut à l'utilisation de l'implémentation officielle de FID publié par les auteurs.
La différence entre l'utilisation de la fidélisation avec cette option et le code est ~ 2E-05
Voir Doc pour des étapes détaillées pour la façon dont les méthodes sont comparées
python setup.py bdist_wheel
pip install dist/*
Nous calculons les scores FID en utilisant les méthodes correspondantes utilisées dans les articles d'origine et en utilisant la fidélité propre proposée ici. Toutes les valeurs sont calculées à l'aide de 10 exécutions d'évaluation. Nous fournissons une API pour interroger les résultats indiqués dans les tableaux ci-dessous directement à partir du package PIP.
Si vous souhaitez ajouter de nouveaux nombres et modèles à notre classement, n'hésitez pas à nous contacter.
L'ensemble test est utilisé comme distribution de référence et comparé aux images générées 10k.
100% de données (inconditionnelle)
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 (+ Ada + Tuning) [Karras et al, 2020] | - † | - † | 8,20 ± 0,10 |
| Stylegan2 (+ Ada) [Karras et al, 2020] | - † | - † | 9,26 ± 0,06 |
| StyleGan2 (diff-aUgment) [Zhao et al, 2020] [CKPT] | 9.89 | 9,90 ± 0,09 | 10,85 ± 0,10 |
| Stylegan2 (miroir-flips) [Karras et al, 2020] [CKPT] | 11.07 | 11,07 ± 0,10 | 12,96 ± 0,07 |
| Stylegan2 (sans flips) [Karras et al, 2020] | - † | - † | 14,53 ± 0,13 |
| Autogan (config A) [Gong et al, 2019] | - † | - † | 21,18 ± 0,12 |
| Autogan (config B) [Gong et al, 2019] | - † | - † | 22,46 ± 0,15 |
| Autogan (config C) [Gong et al, 2019] | - † | - † | 23,62 ± 0,30 |
† Ces méthodes utilisent l'ensemble de formation comme distribution de référence et comparez-vous aux images générées 50k
20% de données
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.15 | 12,12 ± 0,15 | 14,18 ± 0,13 |
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 23.08 | 23,01 ± 0,19 | 29,49 ± 0,17 |
10% de données
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 14.50 | 14,53 ± 0,12 | 16,98 ± 0,18 |
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 36.02 | 35,94 ± 0,17 | 43,60 ± 0,17 |
L'ensemble test est utilisé comme distribution de référence et comparé aux images générées 10k.
100% de données
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 16.54 | 16,44 ± 0,19 | 18,44 ± 0,24 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 15.22 | 15,15 ± 0,13 | 16,80 ± 0,13 |
20% de données
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 32.30 | 32,26 ± 0,19 | 34,88 ± 0,14 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.65 | 16,74 ± 0,10 | 18,49 ± 0,08 |
10% de données
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 45.87 | 45,97 ± 0,20 | 46,77 ± 0,19 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 20.75 | 20,69 ± 0,12 | 23,40 ± 0,09 |
toutes les images @ 1024x1024
Les valeurs sont calculées à l'aide d'images générées 50k
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer | Références de référence |
|---|---|---|---|---|
| Stylegan1 (config A) [Karras et al, 2020] | 4.4 | 4,39 ± 0,03 | 4,77 ± 0,03 | trainval |
| Stylegan2 (config B) [Karras et al, 2020] | 4.39 | 4,43 ± 0,03 | 4,89 ± 0,03 | trainval |
| Stylegan2 (config C) [Karras et al, 2020] | 4.38 | 4,40 ± 0,02 | 4,79 ± 0,02 | trainval |
| Stylegan2 (config D) [Karras et al, 2020] | 4.34 | 4,34 ± 0,02 | 4,78 ± 0,03 | trainval |
| Stylegan2 (config e) [Karras et al, 2020] | 3.31 | 3,33 ± 0,02 | 3,79 ± 0,02 | trainval |
| Stylegan2 (config F) [Karras et al, 2020] [CKPT] | 2.84 | 2,83 + - 0,03 | 3,06 + - 0,02 | trainval |
| Stylegan2 [Karras et al, 2020] [CKPT] | N / A | 2,76 ± 0,03 | 2,98 ± 0,03 | trainval70k |
140K - Images @ 256x256 (ensemble de formation entier avec flips horizontaux) Les images 70K de l'ensemble trainval70k sont utilisées comme images de référence et comparées à 50k images générées.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| zcr [Zhao et al, 2020] † | 3,45 ± 0,19 | 3,29 ± 0,01 | 3,40 ± 0,01 |
| Stylegan2 [Karras et al, 2020] † | 3,66 ± 0,10 | 3,57 ± 0,03 | 3,73 ± 0,03 |
| Pa-gan [Zhang et Khoreva et al, 2019] † | 3,78 ± 0,06 | 3,67 ± 0,03 | 3,81 ± 0,03 |
| Stylegan2-Ada [Karras et al, 2020] † | 3,88 ± 0,13 | 3,84 ± 0,02 | 3,93 ± 0,02 |
| Rotation auxiliaire [Chen et al, 2019] † | 4,16 ± 0,05 | 4.10 ± 0,02 | 4,29 ± 0,03 |
| Abrochage adaptatif [Karras et al, 2020] † | 4,16 ± 0,05 | 4,09 ± 0,02 | 4,20 ± 0,02 |
| Norm spectrale [Miyato et al, 2018] † | 4,60 ± 0,19 | 4,43 ± 0,02 | 4,65 ± 0,02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6,54 ± 0,37 | 6,19 ± 0,03 | 6,62 ± 0,03 |
† rapportés par [Karras et al, 2020]
30K - Images @ 256x256 (quelques tirs génération)
Les images 70k de l'ensemble trainval70k sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 6.16 | 6,14 ± 0,064 | 6,49 ± 0,068 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 5.05 | 5,07 ± 0,030 | 5,18 ± 0,032 |
10K - Images @ 256x256 (quelques tirs génération)
Les images 70k de l'ensemble trainval70k sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 14.75 | 14,88 ± 0,070 | 16,04 ± 0,078 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 7.86 | 7,82 ± 0,045 | 8,12 ± 0,044 |
5K - Images @ 256x256 (quelques tirs génération)
Les images 70k de l'ensemble trainval70k sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 26.60 | 26,64 ± 0,086 | 28,17 ± 0,090 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 10.45 | 10,45 ± 0,047 | 10,99 ± 0,050 |
1K - Images @ 256x256 (quelques tirs génération)
Les images 70k de l'ensemble trainval70k sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 62.16 | 62,14 ± 0,108 | 64,17 ± 0,113 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 25.66 | 25,60 ± 0,071 | 27,26 ± 0,077 |
100% de données
Les images 50K de train Set sont utilisées comme images de référence et comparées aux images générées à 50k.
| Catégorie | Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|---|
| Églises en plein air | Stylegan2 [Karras et al, 2020] [CKPT] | 3.86 | 3,87 ± 0,029 | 4,08 ± 0,028 |
| Chevaux | Stylegan2 [Karras et al, 2020] [CKPT] | 3.43 | 3,41 ± 0,021 | 3,62 ± 0,023 |
| Chat | Stylegan2 [Karras et al, 2020] [CKPT] | 6.93 | 7,02 ± 0,039 | 7,47 ± 0,035 |
LSUN CAT - 30K IMAGES (quelques tirs génération)
Toutes les 1 657 264 images de trainfull Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 10.12 | 10,15 ± 0,04 | 10,87 ± 0,04 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 9.68 | 9,70 ± 0,07 | 10,25 ± 0,07 |
LSUN CAT - IMAGES 10K (quelques tirs génération)
Toutes les 1 657 264 images de trainfull Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 17.93 | 17,98 ± 0,09 | 18,71 ± 0,09 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.07 | 12,04 ± 0,08 | 12,53 ± 0,08 |
LSUN CAT - IMAGES 5K (quelques tirs génération)
Toutes les 1 657 264 images de trainfull Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 34.69 | 34,66 ± 0,12 | 35,85 ± 0,12 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.11 | 16,11 ± 0,09 | 16,79 ± 0,09 |
LSUN CAT - IMAGES 1K (quelques tirs génération)
Toutes les 1 657 264 images de trainfull Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2-mirror-flips [Karras et al, 2020] [CKPT] | 182.85 | 182,80 ± 0,21 | 185,86 ± 0,21 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 42.26 | 42,07 ± 0,16 | 43,12 ± 0,16 |
Chien AFHQ
Les 4739 images de train Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 19.37 | 19,34 ± 0,08 | 20,10 ± 0,08 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 7.40 | 7,41 ± 0,02 | 7,61 ± 0,02 |
Afhq sauvage
Les 4738 images de train Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 3.48 | 3,55 ± 0,03 | 3,66 ± 0,02 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 3.05 | 3,01 ± 0,02 | 3,03 ± 0,02 |
Toutes les images de 1944 de train Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage Fid (rapporté) | Héritage Fid (reproduit) | Foyer | Héritage ENFANT (rapporté) 10 ^ 3 | Héritage ENFANT (reproduit) 10 ^ 3 | Faire le ménage ENFANT 10 ^ 3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 97.72 | 97,46 ± 0,17 | 98,35 ± 0,17 | 89,76 | 89,90 ± 0,31 | 92,51 ± 0,32 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 15.71 | 15,70 ± 0,06 | 15,63 ± 0,06 | 2.88 | 2,93 ± 0,08 | 3,08 ± 0,08 |
Les 1336 images de train Split sont utilisées comme images de référence et comparées aux images générées à 50k.
| Modèle | Héritage Fid (rapporté) | Héritage Fid (reproduit) | Foyer | Héritage ENFANT (rapporté) 10 ^ 3 | Héritage ENFANT (reproduit) 10 ^ 3 | Faire le ménage ENFANT 10 ^ 3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 57.26 | 57,36 ± 0,10 | 65,74 ± 0,11 | 35.66 | 35,69 ± 0,16 | 40,90 ± 0,14 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 18.22 | 18,18 ± 0,03 | 19,60 ± 0,03 | 2.41 | 2,38 ± 0,05 | 2,86 ± 0,04 |
Les 140 images de test Split sont utilisées comme images de référence et comparées à 120 images traduites.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Couper [Park et al, 2020] | 45,5 | 45,51 | 43.71 |
| Distance [Benaim et Wolf et al, 2017] rapportées par [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al, 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017] rapporté par [Park et al, 2020] | 77.2 | 77.20 | 75.17 |
| L'auto-administration [Benaim et Wolf et al, 2017] rapportées par [Park et al, 2020] | 80.8 | 80.78 | 79.28 |
| GCGAN [Fu et al, 2019] rapporté par [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] rapporté par [Park et al, 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al, 2017] rapporté par [Park et al, 2020] | 140.0 | - † | 99.56 |
† Les images traduites pour ces méthodes ont été comparées intitiellement par [Park et al, 2020] en utilisant la compression .jpeg. Nous recyclons ces deux méthodes en utilisant le même protocole et générons les images que .png pour une comparaison équitable.
Les 500 images de test Split sont utilisées comme images de référence et comparées à 500 images traduites.
| Modèle | Héritage-fid (rapporté) | Héritage-fid (reproduit) | Foyer |
|---|---|---|---|
| Couper [Park et al, 2020] | 76.2 | 76.21 | 77,58 |
| Fastcut [Park et al, 2020] | 94.0 | 93.95 | 95.37 |
| GCGAN [Fu et al, 2019] rapporté par [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] rapporté par [Park et al, 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al, 2017] rapporté par [Park et al, 2020] | 123.4 | - † | 127.21 |
| L'auto-administration [Benaim et Wolf et al, 2017] rapportées par [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| Distance [Benaim et Wolf et al, 2017] rapportées par [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
† Les images traduites pour ces méthodes ont été comparées intitiellement par [Park et al, 2020] en utilisant la compression .jpeg. Nous recyclons ces deux méthodes en utilisant le même protocole et générons les images que .png pour une comparaison équitable.
Fidélité torche: métriques de performance à haute fidélité pour les modèles génératifs en pytorch.
TTUR: Règle de mise à jour à deux temps pour la formation Gans.
LPIPS: métrique de similitude perceptuelle et ensemble de données.
Tous les documents de ce référentiel sont mis à disposition sous la licence MIT.
Inception_pytorch.py est dérivé de l'implémentation Pytorch de FID fournie par Maximilian Seitzer. Ces fichiers ont été initialement partagés sous la licence Apache 2.0.
Inception-2015-12-05.pt est un modèle de torchscript du réseau de création pré-formé-V3 de Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens et Zbiguew Wojna. Le réseau a été initialement partagé sous la licence Apache 2.0 sur le référentiel des modèles TensorFlow. L'emballage TorchScript est fourni par Tero Karras et Miika Aittala et Janne Hellsten et Samuli Laine et Jaakko Lehtinen et Timo Aila qui est publié sous la licence de code source Nvidia.