Projekt | Papier | Folien | Colab-fid | Colab-resize | Ranglistentische
Schneller Start: Berechnen Sie FID | Kind berechnen
[Neu] Berechnung der FID unter Verwendung von Clip -Funktionen [Kynkäänniemi et al., 2022] wird jetzt unterstützt. Weitere Informationen finden Sie hier.
Die FID -Berechnung umfasst viele Schritte, die Inkonsistenzen in der endgültigen Metrik erzeugen können. Wie unten gezeigt, verwenden verschiedene Implementierungen unterschiedliche Quantisierung und Größenierungsfunktionen auf niedriger Ebene, von denen letztere häufig falsch implementiert werden.
Wir bieten eine benutzerfreundliche Bibliothek an, um die oben genannten Probleme anzugehen und die FID-Scores für verschiedene Methoden, Papiere und Gruppen vergleichbar zu machen.
Bei aliased Größen- und überraschender Feinheiten bei der GAN -Bewertung
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU und Adobe
Wenn Sie dieses Repository für Ihre Forschung nützlich finden, geben Sie bitte die folgenden Arbeiten an.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
Aliased Größenänderung
Die Definitionen der Änderungsfunktionen sind mathematisch und sollten niemals eine Funktion der zu verwendenden Bibliothek sein . Leider unterscheiden sich die Implementierungen in den häufig verwendeten Bibliotheken. Sie werden oft von beliebten Bibliotheken falsch implementiert. Probieren Sie hier die verschiedenen Implementierungen des Google Colab -Notizbuchs von Google Colab aus.
Die Inkonsistenzen zwischen Implementierungen können einen drastischen Effekt der Bewertungsmetriken haben. Die folgende Tabelle zeigt, dass FFHQ-Datensatzbilder mit der bicubic-Implementierung von anderen Bibliotheken (OpenCV, Pytorch, TensorFlow, OpenCV) im Vergleich zu denselben Bildern mit dem korrekt implementierten Pil-Bicubic-Filter einen großen FID-Score (≥ 6) aufweisen. Andere korrekt implementierte Filter von PIL (Lanczos, bilinear, Box) führen zu einem relativ kleineren FID -Score (≤ 0,75). Beachten Sie, dass seit TF 2.0 der neue Flag antialias (Standard: False ) Ergebnisse in der Nähe von PIL erzielen kann. Es wurde jedoch im vorhandenen TF-FID-Repo nicht verwendet und standardmäßig als False eingestellt.
JPEG -Bildkomprimierung
Die Bildkomprimierung kann einen überraschend großen Einfluss auf FID haben. Bilder sind wahrnehmungsfreundlich voneinander zu unterscheiden, haben aber einen großen FID -Score. Die FID -Scores unter den Bildern werden zwischen allen FFHQ -Bildern berechnet, die mit dem entsprechenden JPEG -Format und dem PNG -Format gespeichert sind.
Im Folgenden untersuchen wir den Effekt der JPEG -Komprimierung für Stylegan2 -Modelle, die auf dem FFHQ -Datensatz (links) und dem LSUN Outdoor Church -Datensatz (rechts) ausgebildet sind. Beachten Sie, dass LSUN -Datensatzbilder mit JPEG -Komprimierung (Qualität 75) gesammelt wurden, während FFHQ -Bilder als PNG gesammelt wurden. Interessanterweise wird für den LSUN -Datensatz der beste FID -Score (3,48) erhalten, wenn die erzeugten Bilder mit JPEG -Qualität 87 komprimiert werden.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
Um die Clip -Funktionen bei der Berechnung der FID [Kynkäänniemi et al., 2022] zu verwenden, geben Sie das Flag model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
Der Kinderwert kann mit einer ähnlichen Schnittstelle wie FID berechnet werden. Die Datensatzstatistiken für Kinder sind nur für kleinere Datensätze AFHQ , BreCaHAD und MetFaces vorberechtigt.
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
Wir bieten Vorkomput -Statistiken für die folgenden häufig verwendeten Konfigurationen. Bitte kontaktieren Sie uns, wenn Sie Statistiken für Ihre neuen Datensätze hinzufügen möchten.
| Aufgabe | Datensatz | Auflösung | Referenzaufteilung | # Referenzbilder | Modus |
|---|---|---|---|---|---|
| Bildgenerierung | cifar10 | 32 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | cifar10 | 32 | test | 10.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | ffhq | 1024, 256 | trainval | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | ffhq | 1024, 256 | trainval70k | 70.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | lsun_church | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | lsun_church | 256 | trainfull | 126,227 | clean |
| Bildgenerierung | lsun_horse | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | lsun_horse | 256 | trainfull | 2.000.340 | clean |
| Bildgenerierung | lsun_cat | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Bildgenerierung | lsun_cat | 256 | trainfull | 1.657.264 | clean , legacy_tensorflow , legacy_pytorch |
| Wenige Schussgeneration | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| Wenige Schussgeneration | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| Wenige Schussgeneration | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| Wenige Schussgeneration | brecahad | 512 | train | 1944 | clean , legacy_tensorflow , legacy_pytorch |
| Wenige Schussgeneration | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| Bild zu Bild | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| Bild zu Bild | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
Verwenden Sie die vorberechtigten Statistiken , um den FID -Score mit den vorkundigen Datensatzstatistiken zu berechnen, die entsprechenden Optionen. Zum Beispiel verwenden Sie den Befehl zum Berechnen der sauberen Bewertung auf generierten 256x256 FFHQ-Bildern:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
Dataset_Path : Ordner, in dem die Datensatzbilder gespeichert sind
Custom_Name : Name, der für die Statistiken verwendet werden soll
Generieren von benutzerdefinierten Statistiken (auf den lokalen Cache gespeichert)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
Verwenden der generierten benutzerdefinierten Statistiken
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
Entfernen der benutzerdefinierten Statistiken
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
Überprüfen Sie, ob bereits eine benutzerdefinierte Statistik besteht
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
Wir bieten zwei Flaggen, um den Legacy FID -Score zu reproduzieren.
mode="legacy_pytorch"
Diese Flagge entspricht der Verwendung der hier bereitgestellten beliebten Pytorch FID -Implementierung, die hier bereitgestellt wurde
Die Differenz zwischen der Verwendung von Clean-Fid mit dieser Option und dem Code beträgt ~ 2E-06
Siehe DOC, wie die Methoden verglichen werden
mode="legacy_tensorflow"
Diese Flagge entspricht der offiziellen Implementierung von FID, die von den Autoren veröffentlicht wurden.
Die Differenz zwischen der Verwendung von Clean-Fid mit dieser Option und dem Code beträgt ~ 2E-05
In doc finden Sie detaillierte Schritte, wie die Methoden verglichen werden
python setup.py bdist_wheel
pip install dist/*
Wir berechnen die FID-Scores mit den entsprechenden Methoden, die in den Originalarbeiten verwendet werden, und die hier vorgeschlagenen sauberen Fid. Alle Werte werden unter Verwendung von 10 Bewertungsläufen berechnet. Wir stellen eine API zur Abfrage der Ergebnisse in den Tabellen unten direkt aus dem PIP -Paket.
Wenn Sie unserer Rangliste neue Zahlen und Modelle hinzufügen möchten, können Sie uns gerne kontaktieren.
Der test wird als Referenzverteilung verwendet und mit 10K erzeugten Bildern verglichen.
100% Daten (bedingungslose)
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 ( + ADA + Tuning) [Karras et al., 2020] | - † | - † | 8,20 ± 0,10 |
| Stylegan2 (+ada) [Karras et al., 2020] | - † | - † | 9,26 ± 0,06 |
| Stylegan2 (Diff-Augment) [Zhao et al., 2020] [CKPT] | 9.89 | 9,90 ± 0,09 | 10,85 ± 0,10 |
| Stylegan2 (Mirror-Flips) [Karras et al., 2020] [CKPT] | 11.07 | 11,07 ± 0,10 | 12,96 ± 0,07 |
| Stylegan2 (ohne Flüsse) [Karras et al., 2020] | - † | - † | 14,53 ± 0,13 |
| Autogan (config a) [Gong et al., 2019] | - † | - † | 21,18 ± 0,12 |
| Autogan (Konfiguration B) [Gong et al., 2019] | - † | - † | 22,46 ± 0,15 |
| Autogan (Konfiguration C) [Gong et al., 2019] | - † | - † | 23,62 ± 0,30 |
† Diese Methoden verwenden den Trainingssatz als Referenzverteilung und vergleichen mit 50 km generierten Bildern
20% Daten
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 12.15 | 12,12 ± 0,15 | 14,18 ± 0,13 |
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 23.08 | 23,01 ± 0,19 | 29,49 ± 0,17 |
10% Daten
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 14.50 | 14,53 ± 0,12 | 16,98 ± 0,18 |
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 36.02 | 35,94 ± 0,17 | 43,60 ± 0,17 |
Der test wird als Referenzverteilung verwendet und mit 10K erzeugten Bildern verglichen.
100% Daten
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 16.54 | 16,44 ± 0,19 | 18,44 ± 0,24 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 15.22 | 15,15 ± 0,13 | 16,80 ± 0,13 |
20% Daten
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 32.30 | 32,26 ± 0,19 | 34,88 ± 0,14 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 16.65 | 16,74 ± 0,10 | 18,49 ± 0,08 |
10% Daten
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 45,87 | 45,97 ± 0,20 | 46,77 ± 0,19 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 20.75 | 20,69 ± 0,12 | 23,40 ± 0,09 |
Alle Bilder @ 1024x1024
Die Werte werden unter Verwendung von 50K -erzeugten Bildern berechnet
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber | Referenzaufteilung |
|---|---|---|---|---|
| Stylegan1 (config a) [Karras et al., 2020] | 4.4 | 4,39 ± 0,03 | 4,77 ± 0,03 | trainval |
| Stylegan2 (config b) [Karras et al., 2020] | 4.39 | 4,43 ± 0,03 | 4,89 ± 0,03 | trainval |
| Stylegan2 (config c) [Karras et al., 2020] | 4.38 | 4,40 ± 0,02 | 4,79 ± 0,02 | trainval |
| Stylegan2 (config d) [Karras et al., 2020] | 4.34 | 4,34 ± 0,02 | 4,78 ± 0,03 | trainval |
| Stylegan2 (Konfiguration E) [Karras et al., 2020] | 3.31 | 3,33 ± 0,02 | 3,79 ± 0,02 | trainval |
| Stylegan2 (config f) [Karras et al., 2020] [CKPT] | 2.84 | 2,83 +- 0,03 | 3,06 +- 0,02 | trainval |
| Stylegan2 [Karras et al., 2020] [CKPT] | N / A | 2,76 ± 0,03 | 2,98 ± 0,03 | trainval70k |
140K - Bilder @ 256x256 (Ganzes Trainingssatz mit horizontalen Flips) Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| ZCR [Zhao et al., 2020] † | 3,45 ± 0,19 | 3,29 ± 0,01 | 3,40 ± 0,01 |
| Stylegan2 [Karras et al., 2020] † | 3,66 ± 0,10 | 3,57 ± 0,03 | 3,73 ± 0,03 |
| Pa-Gan [Zhang und Khoreva et al., 2019] † | 3,78 ± 0,06 | 3,67 ± 0,03 | 3,81 ± 0,03 |
| Stylegan2-ada [Karras et al., 2020] † | 3,88 ± 0,13 | 3,84 ± 0,02 | 3,93 ± 0,02 |
| Hilfsrotation [Chen et al., 2019] † | 4,16 ± 0,05 | 4,10 ± 0,02 | 4,29 ± 0,03 |
| Adaptiver Tropfen [Karras et al., 2020] † | 4,16 ± 0,05 | 4,09 ± 0,02 | 4,20 ± 0,02 |
| Spectral Norm [Miyato et al., 2018] † | 4,60 ± 0,19 | 4,43 ± 0,02 | 4,65 ± 0,02 |
| Wgan-GP [Gulrajani et al., 2017] † | 6,54 ± 0,37 | 6,19 ± 0,03 | 6,62 ± 0,03 |
† berichtet von [Karras et al., 2020]
30k - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 6.16 | 6,14 ± 0,064 | 6,49 ± 0,068 |
| Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 5.05 | 5,07 ± 0,030 | 5,18 ± 0,032 |
10k - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 14.75 | 14,88 ± 0,070 | 16,04 ± 0,078 |
| Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 7.86 | 7,82 ± 0,045 | 8,12 ± 0,044 |
5K - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 26.60 | 26,64 ± 0,086 | 28,17 ± 0,090 |
| Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 10.45 | 10,45 ± 0,047 | 10,99 ± 0,050 |
1K - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 62.16 | 62,14 ± 0,108 | 64,17 ± 0,113 |
| Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 25.66 | 25,60 ± 0,071 | 27,26 ± 0,077 |
100% Daten
Die 50K -Bilder aus train Zugsatz werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Kategorie | Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|---|
| Außenkirchen | Stylegan2 [Karras et al., 2020] [CKPT] | 3.86 | 3,87 ± 0,029 | 4,08 ± 0,028 |
| Pferde | Stylegan2 [Karras et al., 2020] [CKPT] | 3.43 | 3,41 ± 0,021 | 3,62 ± 0,023 |
| Katze | Stylegan2 [Karras et al., 2020] [CKPT] | 6.93 | 7,02 ± 0,039 | 7,47 ± 0,035 |
Lsun Cat - 30k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 10.12 | 10,15 ± 0,04 | 10,87 ± 0,04 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 9.68 | 9,70 ± 0,07 | 10,25 ± 0,07 |
Lsun Cat - 10k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 17.93 | 17,98 ± 0,09 | 18,71 ± 0,09 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 12.07 | 12,04 ± 0,08 | 12,53 ± 0,08 |
Lsun Cat - 5k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 34.69 | 34,66 ± 0,12 | 35,85 ± 0,12 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 16.11 | 16,11 ± 0,09 | 16,79 ± 0,09 |
Lsun Cat - 1k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 182,85 | 182,80 ± 0,21 | 185,86 ± 0,21 |
| Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT] | 42.26 | 42,07 ± 0,16 | 43,12 ± 0,16 |
AFHQ -Hund
Alle 4739 Bilder aus train Zugaufteil werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 19.37 | 19,34 ± 0,08 | 20,10 ± 0,08 |
| Stylegan2-ada [Karras et al., 2020] [CKPT] | 7.40 | 7,41 ± 0,02 | 7,61 ± 0,02 |
AFHQ Wild
Alle 4738 -Bilder aus train Zugaufteil werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 3.48 | 3,55 ± 0,03 | 3,66 ± 0,02 |
| Stylegan2-ada [Karras et al., 2020] [CKPT] | 3.05 | 3,01 ± 0,02 | 3,03 ± 0,02 |
Alle 1944 Bilder aus train Zugspalten werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.
| Modell | Vermächtnis Fid (gemeldet) | Vermächtnis Fid (reproduziert) | Sauber | Vermächtnis KIND (gemeldet) 10^3 | Vermächtnis KIND (reproduziert) 10^3 | Sauber KIND 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 97.72 | 97,46 ± 0,17 | 98,35 ± 0,17 | 89.76 | 89,90 ± 0,31 | 92,51 ± 0,32 |
| Stylegan2-ada [Karras et al., 2020] [CKPT] | 15.71 | 15,70 ± 0,06 | 15,63 ± 0,06 | 2.88 | 2,93 ± 0,08 | 3,08 ± 0,08 |
Alle 1336 Bilder aus train Zugspalten werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.
| Modell | Vermächtnis Fid (gemeldet) | Vermächtnis Fid (reproduziert) | Sauber | Vermächtnis KIND (gemeldet) 10^3 | Vermächtnis KIND (reproduziert) 10^3 | Sauber KIND 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 57.26 | 57,36 ± 0,10 | 65,74 ± 0,11 | 35.66 | 35,69 ± 0,16 | 40,90 ± 0,14 |
| Stylegan2-ada [Karras et al., 2020] [CKPT] | 18.22 | 18,18 ± 0,03 | 19,60 ± 0,03 | 2.41 | 2,38 ± 0,05 | 2,86 ± 0,04 |
Alle 140 Bilder aus test werden als Referenzbilder verwendet und mit 120 übersetzten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Cut [Park et al., 2020] | 45,5 | 45,51 | 43.71 |
| Distanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al., 2020] | 73.4 | 73,38 | 72,53 |
| Cyclegan [Zhu et al., 2017] berichtet von [Park et al., 2020] | 77,2 | 77,20 | 75.17 |
| Selbstdistanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020] | 80.8 | 80.78 | 79,28 |
| Gcgan [Fu et al., 2019] berichtete von [Park et al., 2020] | 86,7 | 85,86 | 83,65 |
| Munit [Huang et al., 2018] berichtet von [Park et al., 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al., 2017] berichtet von [Park et al., 2020] | 140.0 | - † | 99,56 |
† Die übersetzten Bilder für diese Methoden wurden intell von [Park et al., 2020] unter Verwendung von .JPEG -Komprimierung verglichen. Wir haben diese beiden Methoden mit demselben Protokal übertragen und die Bilder als .png für einen fairen Vergleich erzeugen.
Alle 500 Bilder aus test werden als Referenzbilder verwendet und mit 500 übersetzten Bildern verglichen.
| Modell | Legacy-Fid (gemeldet) | Legacy-Fid (reproduziert) | Sauber |
|---|---|---|---|
| Cut [Park et al., 2020] | 76,2 | 76,21 | 77,58 |
| Fastcut [Park et al., 2020] | 94.0 | 93.95 | 95.37 |
| Gcgan [Fu et al., 2019] berichtete von [Park et al., 2020] | 96.6 | 96.61 | 96,49 |
| Munit [Huang et al., 2018] berichtet von [Park et al., 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al., 2017] berichtet von [Park et al., 2020] | 123.4 | - † | 127.21 |
| Selbstdistanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020] | 144.4 | 144.42 | 147.23 |
| Distanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020] | 155.3 | 155.34 | 158.39 |
† Die übersetzten Bilder für diese Methoden wurden intell von [Park et al., 2020] unter Verwendung von .JPEG -Komprimierung verglichen. Wir haben diese beiden Methoden mit demselben Protokal übertragen und die Bilder als .png für einen fairen Vergleich erzeugen.
Fackelfidelität: Metriken mit hoher Fidelity-Leistung für generative Modelle in Pytorch.
TTUR: Zwei zeitliche Aktualisierungsregel für die Schulung von Gans.
LPIPs: Metrik und Datensatz der Wahrnehmungsähnlichkeit.
Das gesamte Material in diesem Repository wird im Rahmen der MIT -Lizenz zur Verfügung gestellt.
Inception_pytorch.py stammt aus der Pytorch -Implementierung von FID von Maximilian Seitzer. Diese Dateien wurden ursprünglich unter der Apache 2.0 -Lizenz geteilt.
Inception-2015-12-05.PT ist ein Torchscript-Modell des vorgeschriebenen Inception-V3-Netzwerks von Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens und Zbigniew Wojna. Das Netzwerk wurde ursprünglich unter Apache 2.0 -Lizenz für das TensorFlow -Models -Repository geteilt. Die Torchscript -Wrapper wird von Tero Karras und Miika Aittala und Janne Hellsten sowie Samuli Laine sowie Jaakko Lehtinen und Timo Aila zur Verfügung gestellt, die unter der NVIDIA -Quellcode -Lizenz veröffentlicht werden.