clean fid -Download - clean fid -Quellcode herunterladen

clean fid

Python

1.0.0

Herunterladen

sauber-fid zur Bewertung generativer Modelle

[Neu] Berechnung der FID unter Verwendung von Clip -Funktionen [Kynkäänniemi et al., 2022] wird jetzt unterstützt. Weitere Informationen finden Sie hier.

Die FID -Berechnung umfasst viele Schritte, die Inkonsistenzen in der endgültigen Metrik erzeugen können. Wie unten gezeigt, verwenden verschiedene Implementierungen unterschiedliche Quantisierung und Größenierungsfunktionen auf niedriger Ebene, von denen letztere häufig falsch implementiert werden.

Wir bieten eine benutzerfreundliche Bibliothek an, um die oben genannten Probleme anzugehen und die FID-Scores für verschiedene Methoden, Papiere und Gruppen vergleichbar zu machen.

Entsprechendes Manuskript

Bei aliased Größen- und überraschender Feinheiten bei der GAN -Bewertung
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU und Adobe

Wenn Sie dieses Repository für Ihre Forschung nützlich finden, geben Sie bitte die folgenden Arbeiten an.

 @inproceedings{parmar2021cleanfid,
  title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
  author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
  booktitle={CVPR},
  year={2022}
}

Aliased Größenänderung

Die Definitionen der Änderungsfunktionen sind mathematisch und sollten niemals eine Funktion der zu verwendenden Bibliothek sein . Leider unterscheiden sich die Implementierungen in den häufig verwendeten Bibliotheken. Sie werden oft von beliebten Bibliotheken falsch implementiert. Probieren Sie hier die verschiedenen Implementierungen des Google Colab -Notizbuchs von Google Colab aus.

Die Inkonsistenzen zwischen Implementierungen können einen drastischen Effekt der Bewertungsmetriken haben. Die folgende Tabelle zeigt, dass FFHQ-Datensatzbilder mit der bicubic-Implementierung von anderen Bibliotheken (OpenCV, Pytorch, TensorFlow, OpenCV) im Vergleich zu denselben Bildern mit dem korrekt implementierten Pil-Bicubic-Filter einen großen FID-Score (≥ 6) aufweisen. Andere korrekt implementierte Filter von PIL (Lanczos, bilinear, Box) führen zu einem relativ kleineren FID -Score (≤ 0,75). Beachten Sie, dass seit TF 2.0 der neue Flag antialias (Standard: False ) Ergebnisse in der Nähe von PIL erzielen kann. Es wurde jedoch im vorhandenen TF-FID-Repo nicht verwendet und standardmäßig als False eingestellt.

JPEG -Bildkomprimierung

Die Bildkomprimierung kann einen überraschend großen Einfluss auf FID haben. Bilder sind wahrnehmungsfreundlich voneinander zu unterscheiden, haben aber einen großen FID -Score. Die FID -Scores unter den Bildern werden zwischen allen FFHQ -Bildern berechnet, die mit dem entsprechenden JPEG -Format und dem PNG -Format gespeichert sind.

Im Folgenden untersuchen wir den Effekt der JPEG -Komprimierung für Stylegan2 -Modelle, die auf dem FFHQ -Datensatz (links) und dem LSUN Outdoor Church -Datensatz (rechts) ausgebildet sind. Beachten Sie, dass LSUN -Datensatzbilder mit JPEG -Komprimierung (Qualität 75) gesammelt wurden, während FFHQ -Bilder als PNG gesammelt wurden. Interessanterweise wird für den LSUN -Datensatz der beste FID -Score (3,48) erhalten, wenn die erzeugten Bilder mit JPEG -Qualität 87 komprimiert werden.

Schneller Start

Installieren Sie die Bibliothek
```
 pip install clean-fid
```

Computer FID

FID zwischen zwei Bildordnern berechnen

 from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)

Berechnen Sie FID zwischen einem Ordner von Bildern und vorbereiteten Datensätzenstatistiken (z. B. FFHQ )

 from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")

Berechnen Sie FID mithilfe eines generativen Modells und einer vorbereiteten Datensatzstatistik:

 from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
        dataset_res=256, num_gen=50_000, dataset_split="trainval70k")

Computer-Clip-Fid

Um die Clip -Funktionen bei der Berechnung der FID [Kynkäänniemi et al., 2022] zu verwenden, geben Sie das Flag model_name="clip_vit_b_32"

ZB berechnet die Clip-Fid zwischen zwei Ordnern von Bildern verwenden die folgenden Befehle.

 from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")

Computerkind

Der Kinderwert kann mit einer ähnlichen Schnittstelle wie FID berechnet werden. Die Datensatzstatistiken für Kinder sind nur für kleinere Datensätze AFHQ , BreCaHAD und MetFaces vorberechtigt.

Kinder zwischen zwei Bildordnern berechnen

 from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)

Berechnen Sie das Kind zwischen einem Ordner mit Bildern und vorbereiteten Datensätzenstatistiken

 from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")

Berechnen Sie das Kind mit einem generativen Modell und einer vorbereiteten Datensatzstatistik:

 from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")

Unterstützte vorberechtigte Datensätze

Wir bieten Vorkomput -Statistiken für die folgenden häufig verwendeten Konfigurationen. Bitte kontaktieren Sie uns, wenn Sie Statistiken für Ihre neuen Datensätze hinzufügen möchten.

Aufgabe	Datensatz	Auflösung	Referenzaufteilung	# Referenzbilder	Modus
Bildgenerierung	`cifar10`	32	`train`	50.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`cifar10`	32	`test`	10.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`ffhq`	1024, 256	`trainval`	50.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`ffhq`	1024, 256	`trainval70k`	70.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`lsun_church`	256	`train`	50.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`lsun_church`	256	`trainfull`	126,227	`clean`
Bildgenerierung	`lsun_horse`	256	`train`	50.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`lsun_horse`	256	`trainfull`	2.000.340	`clean`
Bildgenerierung	`lsun_cat`	256	`train`	50.000	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bildgenerierung	`lsun_cat`	256	`trainfull`	1.657.264	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Wenige Schussgeneration	`afhq_cat`	512	`train`	5153	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Wenige Schussgeneration	`afhq_dog`	512	`train`	4739	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Wenige Schussgeneration	`afhq_wild`	512	`train`	4738	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Wenige Schussgeneration	`brecahad`	512	`train`	1944	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Wenige Schussgeneration	`metfaces`	1024	`train`	1336	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bild zu Bild	`horse2zebra`	256	`test`	140	`clean` , `legacy_tensorflow` , `legacy_pytorch`
Bild zu Bild	`cat2dog`	256	`test`	500	`clean` , `legacy_tensorflow` , `legacy_pytorch`

Verwenden Sie die vorberechtigten Statistiken , um den FID -Score mit den vorkundigen Datensatzstatistiken zu berechnen, die entsprechenden Optionen. Zum Beispiel verwenden Sie den Befehl zum Berechnen der sauberen Bewertung auf generierten 256x256 FFHQ-Bildern:

 fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256,  mode="clean", dataset_split="trainval70k")

Erstellen Sie benutzerdefinierte Datensatzstatistiken

Dataset_Path : Ordner, in dem die Datensatzbilder gespeichert sind
Custom_Name : Name, der für die Statistiken verwendet werden soll

Generieren von benutzerdefinierten Statistiken (auf den lokalen Cache gespeichert)

 from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")

Verwenden der generierten benutzerdefinierten Statistiken

 from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
          mode="clean", dataset_split="custom")

Entfernen der benutzerdefinierten Statistiken

 from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")

Überprüfen Sie, ob bereits eine benutzerdefinierte Statistik besteht
```
 from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
```

Rückwärtskompatibilität

Wir bieten zwei Flaggen, um den Legacy FID -Score zu reproduzieren.

mode="legacy_pytorch"
Diese Flagge entspricht der Verwendung der hier bereitgestellten beliebten Pytorch FID -Implementierung, die hier bereitgestellt wurde
Die Differenz zwischen der Verwendung von Clean-Fid mit dieser Option und dem Code beträgt ~ 2E-06
Siehe DOC, wie die Methoden verglichen werden
mode="legacy_tensorflow"
Diese Flagge entspricht der offiziellen Implementierung von FID, die von den Autoren veröffentlicht wurden.
Die Differenz zwischen der Verwendung von Clean-Fid mit dieser Option und dem Code beträgt ~ 2E-05
In doc finden Sie detaillierte Schritte, wie die Methoden verglichen werden

Gebäude sauber aus vor Ort aus der Quelle

 python setup.py bdist_wheel
pip install dist/*

CleanFid -Rangliste für gemeinsame Aufgaben

Wir berechnen die FID-Scores mit den entsprechenden Methoden, die in den Originalarbeiten verwendet werden, und die hier vorgeschlagenen sauberen Fid. Alle Werte werden unter Verwendung von 10 Bewertungsläufen berechnet. Wir stellen eine API zur Abfrage der Ergebnisse in den Tabellen unten direkt aus dem PIP -Paket.

Wenn Sie unserer Rangliste neue Zahlen und Modelle hinzufügen möchten, können Sie uns gerne kontaktieren.

CIFAR-10 (wenige Schuss)

Der test wird als Referenzverteilung verwendet und mit 10K erzeugten Bildern verglichen.

100% Daten (bedingungslose)

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 ( + ADA + Tuning) [Karras et al., 2020]	- †	- †	8,20 ± 0,10
Stylegan2 (+ada) [Karras et al., 2020]	- †	- †	9,26 ± 0,06
Stylegan2 (Diff-Augment) [Zhao et al., 2020] [CKPT]	9.89	9,90 ± 0,09	10,85 ± 0,10
Stylegan2 (Mirror-Flips) [Karras et al., 2020] [CKPT]	11.07	11,07 ± 0,10	12,96 ± 0,07
Stylegan2 (ohne Flüsse) [Karras et al., 2020]	- †	- †	14,53 ± 0,13
Autogan (config a) [Gong et al., 2019]	- †	- †	21,18 ± 0,12
Autogan (Konfiguration B) [Gong et al., 2019]	- †	- †	22,46 ± 0,15
Autogan (Konfiguration C) [Gong et al., 2019]	- †	- †	23,62 ± 0,30

† Diese Methoden verwenden den Trainingssatz als Referenzverteilung und vergleichen mit 50 km generierten Bildern

20% Daten

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	12.15	12,12 ± 0,15	14,18 ± 0,13
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	23.08	23,01 ± 0,19	29,49 ± 0,17

10% Daten

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	14.50	14,53 ± 0,12	16,98 ± 0,18
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	36.02	35,94 ± 0,17	43,60 ± 0,17

CIFAR-100 (wenige Schuss)

Der test wird als Referenzverteilung verwendet und mit 10K erzeugten Bildern verglichen.

100% Daten

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	16.54	16,44 ± 0,19	18,44 ± 0,24
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	15.22	15,15 ± 0,13	16,80 ± 0,13

20% Daten

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	32.30	32,26 ± 0,19	34,88 ± 0,14
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	16.65	16,74 ± 0,10	18,49 ± 0,08

10% Daten

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	45,87	45,97 ± 0,20	46,77 ± 0,19
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	20.75	20,69 ± 0,12	23,40 ± 0,09

Ffhq

Alle Bilder @ 1024x1024
Die Werte werden unter Verwendung von 50K -erzeugten Bildern berechnet

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber	Referenzaufteilung
Stylegan1 (config a) [Karras et al., 2020]	4.4	4,39 ± 0,03	4,77 ± 0,03	`trainval`
Stylegan2 (config b) [Karras et al., 2020]	4.39	4,43 ± 0,03	4,89 ± 0,03	`trainval`
Stylegan2 (config c) [Karras et al., 2020]	4.38	4,40 ± 0,02	4,79 ± 0,02	`trainval`
Stylegan2 (config d) [Karras et al., 2020]	4.34	4,34 ± 0,02	4,78 ± 0,03	`trainval`
Stylegan2 (Konfiguration E) [Karras et al., 2020]	3.31	3,33 ± 0,02	3,79 ± 0,02	`trainval`
Stylegan2 (config f) [Karras et al., 2020] [CKPT]	2.84	2,83 +- 0,03	3,06 +- 0,02	`trainval`
Stylegan2 [Karras et al., 2020] [CKPT]	N / A	2,76 ± 0,03	2,98 ± 0,03	`trainval70k`

140K - Bilder @ 256x256 (Ganzes Trainingssatz mit horizontalen Flips) Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
ZCR [Zhao et al., 2020] †	3,45 ± 0,19	3,29 ± 0,01	3,40 ± 0,01
Stylegan2 [Karras et al., 2020] †	3,66 ± 0,10	3,57 ± 0,03	3,73 ± 0,03
Pa-Gan [Zhang und Khoreva et al., 2019] †	3,78 ± 0,06	3,67 ± 0,03	3,81 ± 0,03
Stylegan2-ada [Karras et al., 2020] †	3,88 ± 0,13	3,84 ± 0,02	3,93 ± 0,02
Hilfsrotation [Chen et al., 2019] †	4,16 ± 0,05	4,10 ± 0,02	4,29 ± 0,03
Adaptiver Tropfen [Karras et al., 2020] †	4,16 ± 0,05	4,09 ± 0,02	4,20 ± 0,02
Spectral Norm [Miyato et al., 2018] †	4,60 ± 0,19	4,43 ± 0,02	4,65 ± 0,02
Wgan-GP [Gulrajani et al., 2017] †	6,54 ± 0,37	6,19 ± 0,03	6,62 ± 0,03

† berichtet von [Karras et al., 2020]

30k - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	6.16	6,14 ± 0,064	6,49 ± 0,068
Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT]	5.05	5,07 ± 0,030	5,18 ± 0,032

10k - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	14.75	14,88 ± 0,070	16,04 ± 0,078
Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT]	7.86	7,82 ± 0,045	8,12 ± 0,044

5K - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	26.60	26,64 ± 0,086	28,17 ± 0,090
Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT]	10.45	10,45 ± 0,047	10,99 ± 0,050

1K - Bilder @ 256x256 (wenige Schussgenerierung)
Die 70k -Bilder aus trainval70k -Set werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	62.16	62,14 ± 0,108	64,17 ± 0,113
Diffaugment-Stylegan2 [Zhao et al., 2020] [CKPT]	25.66	25,60 ± 0,071	27,26 ± 0,077

LSUN -Kategorien

100% Daten
Die 50K -Bilder aus train Zugsatz werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Kategorie	Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Außenkirchen	Stylegan2 [Karras et al., 2020] [CKPT]	3.86	3,87 ± 0,029	4,08 ± 0,028
Pferde	Stylegan2 [Karras et al., 2020] [CKPT]	3.43	3,41 ± 0,021	3,62 ± 0,023
Katze	Stylegan2 [Karras et al., 2020] [CKPT]	6.93	7,02 ± 0,039	7,47 ± 0,035

Lsun Cat - 30k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	10.12	10,15 ± 0,04	10,87 ± 0,04
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	9.68	9,70 ± 0,07	10,25 ± 0,07

Lsun Cat - 10k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	17.93	17,98 ± 0,09	18,71 ± 0,09
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	12.07	12,04 ± 0,08	12,53 ± 0,08

Lsun Cat - 5k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	34.69	34,66 ± 0,12	35,85 ± 0,12
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	16.11	16,11 ± 0,09	16,79 ± 0,09

Lsun Cat - 1k Bilder (wenige Schussgenerierung)
Alle 1.657.264 Bilder aus trainfull Split werden als Referenzbilder verwendet und mit 50K erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT]	182,85	182,80 ± 0,21	185,86 ± 0,21
Stylegan2-diff-Augment [Zhao et al., 2020] [CKPT]	42.26	42,07 ± 0,16	43,12 ± 0,16

AFHQ (wenige Schussgeneration)

AFHQ -Hund
Alle 4739 Bilder aus train Zugaufteil werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	19.37	19,34 ± 0,08	20,10 ± 0,08
Stylegan2-ada [Karras et al., 2020] [CKPT]	7.40	7,41 ± 0,02	7,61 ± 0,02

AFHQ Wild
Alle 4738 -Bilder aus train Zugaufteil werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Stylegan2 [Karras et al., 2020] [CKPT]	3.48	3,55 ± 0,03	3,66 ± 0,02
Stylegan2-ada [Karras et al., 2020] [CKPT]	3.05	3,01 ± 0,02	3,03 ± 0,02

Brekahad (wenige Schussgeneration)

Alle 1944 Bilder aus train Zugspalten werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.

Modell	Vermächtnis Fid (gemeldet)	Vermächtnis Fid (reproduziert)	Sauber	Vermächtnis KIND (gemeldet) 10^3	Vermächtnis KIND (reproduziert) 10^3	Sauber KIND 10^3
Stylegan2 [Karras et al., 2020] [CKPT]	97.72	97,46 ± 0,17	98,35 ± 0,17	89.76	89,90 ± 0,31	92,51 ± 0,32
Stylegan2-ada [Karras et al., 2020] [CKPT]	15.71	15,70 ± 0,06	15,63 ± 0,06	2.88	2,93 ± 0,08	3,08 ± 0,08

Metfaces (wenige Schussgenerierung)

Alle 1336 Bilder aus train Zugspalten werden als Referenzbilder verwendet und mit 50 km erzeugten Bildern verglichen.

Modell	Vermächtnis Fid (gemeldet)	Vermächtnis Fid (reproduziert)	Sauber	Vermächtnis KIND (gemeldet) 10^3	Vermächtnis KIND (reproduziert) 10^3	Sauber KIND 10^3
Stylegan2 [Karras et al., 2020] [CKPT]	57.26	57,36 ± 0,10	65,74 ± 0,11	35.66	35,69 ± 0,16	40,90 ± 0,14
Stylegan2-ada [Karras et al., 2020] [CKPT]	18.22	18,18 ± 0,03	19,60 ± 0,03	2.41	2,38 ± 0,05	2,86 ± 0,04

Horse2zebra (Bild zur Bildübersetzung)

Alle 140 Bilder aus test werden als Referenzbilder verwendet und mit 120 übersetzten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Cut [Park et al., 2020]	45,5	45,51	43.71
Distanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020]	72.0	71.97	71.01
Fastcut [Park et al., 2020]	73.4	73,38	72,53
Cyclegan [Zhu et al., 2017] berichtet von [Park et al., 2020]	77,2	77,20	75.17
Selbstdistanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020]	80.8	80.78	79,28
Gcgan [Fu et al., 2019] berichtete von [Park et al., 2020]	86,7	85,86	83,65
Munit [Huang et al., 2018] berichtet von [Park et al., 2020]	133.8	- †	120.48
Drit [Lee et al., 2017] berichtet von [Park et al., 2020]	140.0	- †	99,56

† Die übersetzten Bilder für diese Methoden wurden intell von [Park et al., 2020] unter Verwendung von .JPEG -Komprimierung verglichen. Wir haben diese beiden Methoden mit demselben Protokal übertragen und die Bilder als .png für einen fairen Vergleich erzeugen.

Cat2Dog (Bild zur Bildübersetzung)

Alle 500 Bilder aus test werden als Referenzbilder verwendet und mit 500 übersetzten Bildern verglichen.

Modell	Legacy-Fid (gemeldet)	Legacy-Fid (reproduziert)	Sauber
Cut [Park et al., 2020]	76,2	76,21	77,58
Fastcut [Park et al., 2020]	94.0	93.95	95.37
Gcgan [Fu et al., 2019] berichtete von [Park et al., 2020]	96.6	96.61	96,49
Munit [Huang et al., 2018] berichtet von [Park et al., 2020]	104.4	- †	123.73
Drit [Lee et al., 2017] berichtet von [Park et al., 2020]	123.4	- †	127.21
Selbstdistanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020]	144.4	144.42	147.23
Distanz [Benaim und Wolf et al., 2017] berichtet von [Park et al., 2020]	155.3	155.34	158.39

† Die übersetzten Bilder für diese Methoden wurden intell von [Park et al., 2020] unter Verwendung von .JPEG -Komprimierung verglichen. Wir haben diese beiden Methoden mit demselben Protokal übertragen und die Bilder als .png für einen fairen Vergleich erzeugen.

Lizenzen

Das gesamte Material in diesem Repository wird im Rahmen der MIT -Lizenz zur Verfügung gestellt.

Inception_pytorch.py stammt aus der Pytorch -Implementierung von FID von Maximilian Seitzer. Diese Dateien wurden ursprünglich unter der Apache 2.0 -Lizenz geteilt.

Inception-2015-12-05.PT ist ein Torchscript-Modell des vorgeschriebenen Inception-V3-Netzwerks von Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens und Zbigniew Wojna. Das Netzwerk wurde ursprünglich unter Apache 2.0 -Lizenz für das TensorFlow -Models -Repository geteilt. Die Torchscript -Wrapper wird von Tero Karras und Miika Aittala und Janne Hellsten sowie Samuli Laine sowie Jaakko Lehtinen und Timo Aila zur Verfügung gestellt, die unter der NVIDIA -Quellcode -Lizenz veröffentlicht werden.

Expandieren

Zusätzliche Informationen