Proyek | Kertas | Slide | Colab-fid | Colab-Ressize | Tabel Papan Peringkat
Mulai Cepat: Hitung FID | Hitung anak
[Baru] Menghitung fitur menggunakan klip [Kynkäänniemi et al, 2022] sekarang didukung. Lihat di sini untuk detail lebih lanjut.
Perhitungan FID melibatkan banyak langkah yang dapat menghasilkan ketidakkonsistenan dalam metrik akhir. Seperti yang ditunjukkan di bawah ini, berbagai implementasi menggunakan fungsi kuantisasi dan pengubah ukuran tingkat rendah yang berbeda, yang terakhir sering diimplementasikan secara tidak benar.
Kami menyediakan perpustakaan yang mudah digunakan untuk mengatasi masalah di atas dan membuat skor FID yang sebanding di berbagai metode, makalah, dan kelompok.
Pada pengubah ukuran yang alias dan seluk -beluk yang mengejutkan dalam evaluasi GAN
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU dan Adobe
Jika Anda menemukan repositori ini berguna untuk penelitian Anda, silakan kutip karya berikut.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
Operasi pengubah ukuran alias
Definisi fungsi ukuran adalah matematika dan tidak boleh menjadi fungsi dari perpustakaan yang digunakan . Sayangnya, implementasi berbeda di perpustakaan yang umum digunakan. Mereka sering diimplementasikan secara tidak benar oleh perpustakaan populer. Cobalah berbagai implementasi pengubah ukuran di Google Colab Notebook di sini.
Ketidakkonsistenan di antara implementasi dapat memiliki efek drastis dari metrik evaluasi. Tabel di bawah ini menunjukkan bahwa gambar dataset FFHQ yang diubah ukurannya dengan implementasi bicubic dari perpustakaan lain (OpenCV, Pytorch, TensorFlow, OpenCV) memiliki skor FID yang besar (≥ 6) bila dibandingkan dengan gambar yang sama dengan filter PIL-bikubik yang diimplementasikan dengan benar. Filter lain yang diterapkan dengan benar dari PIL (Lanczos, bilinear, kotak) semuanya menghasilkan skor FID yang relatif lebih kecil (≤ 0,75). Perhatikan bahwa sejak TF 2.0, antialias bendera baru (default: False ) dapat menghasilkan hasil yang dekat dengan PIL. Namun, itu tidak digunakan dalam repo TF-FID yang ada dan ditetapkan sebagai False secara default.
Kompresi gambar JPEG
Kompresi gambar dapat memiliki efek yang sangat besar pada FID. Gambar tidak dapat dibedakan secara perseptual satu sama lain tetapi memiliki skor FID yang besar. Skor FID di bawah gambar dihitung antara semua gambar FFHQ yang disimpan menggunakan format JPEG yang sesuai dan format PNG.
Di bawah ini, kami mempelajari pengaruh kompresi JPEG untuk model StyleGan2 yang dilatih pada dataset FFHQ (kiri) dan dataset gereja LSUN Outdoor (kanan). Perhatikan bahwa gambar dataset LSUN dikumpulkan dengan kompresi JPEG (kualitas 75), sedangkan gambar FFHQ dikumpulkan sebagai PNG. Menariknya, untuk dataset LSUN, skor FID terbaik (3,48) diperoleh ketika gambar yang dihasilkan dikompresi dengan kualitas JPEG 87.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
Untuk menggunakan fitur klip saat menghitung FID [Kynkäänniemi et al, 2022], tentukan bendera model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
Skor anak dapat dihitung menggunakan antarmuka yang sama dengan FID. Statistik dataset untuk anak hanya dikomputasi untuk kumpulan data yang lebih kecil AFHQ , BreCaHAD , dan MetFaces .
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
Kami memberikan statistik precompute untuk konfigurasi yang umum digunakan berikut. Silakan hubungi kami jika Anda ingin menambahkan statistik untuk set data baru Anda.
| Tugas | Dataset | Resolusi | Split referensi | # Gambar referensi | mode |
|---|---|---|---|---|---|
| Pembuatan gambar | cifar10 | 32 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | cifar10 | 32 | test | 10.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | ffhq | 1024, 256 | trainval | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | ffhq | 1024, 256 | trainval70k | 70.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | lsun_church | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | lsun_church | 256 | trainfull | 126.227 | clean |
| Pembuatan gambar | lsun_horse | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | lsun_horse | 256 | trainfull | 2.000.340 | clean |
| Pembuatan gambar | lsun_cat | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Pembuatan gambar | lsun_cat | 256 | trainfull | 1.657.264 | clean , legacy_tensorflow , legacy_pytorch |
| Beberapa generasi tembakan | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| Beberapa generasi tembakan | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| Beberapa generasi tembakan | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| Beberapa generasi tembakan | brecahad | 512 | train | 1944 | clean , legacy_tensorflow , legacy_pytorch |
| Beberapa generasi tembakan | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| Gambar ke gambar | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| Gambar ke gambar | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
Menggunakan statistik yang telah dikomputasi untuk menghitung skor FID dengan statistik dataset yang telah dikomputasi, gunakan opsi yang sesuai. Misalnya, untuk menghitung skor fid bersih pada gambar ffhq 256x256 yang dihasilkan menggunakan perintah:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
dataset_path : folder di mana gambar dataset disimpan
Custom_name : Nama yang akan digunakan untuk statistik
Menghasilkan statistik khusus (disimpan ke cache lokal)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
Menggunakan statistik khusus yang dihasilkan
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
Menghapus statistik khusus
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
Periksa apakah statistik khusus sudah ada
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
Kami menyediakan dua bendera untuk mereproduksi skor FID lama.
mode="legacy_pytorch"
Bendera ini setara dengan menggunakan implementasi Pytorch Fid populer yang disediakan di sini
Perbedaan antara menggunakan FID bersih dengan opsi ini dan kode adalah ~ 2E-06
Lihat dokumen untuk bagaimana metode ini dibandingkan
mode="legacy_tensorflow"
Bendera ini setara dengan menggunakan implementasi resmi FID yang dirilis oleh penulis.
Perbedaan antara menggunakan FID bersih dengan opsi ini dan kode adalah ~ 2E-05
Lihat DOC untuk langkah -langkah terperinci tentang bagaimana metode dibandingkan
python setup.py bdist_wheel
pip install dist/*
Kami menghitung skor FID menggunakan metode yang sesuai yang digunakan dalam kertas asli dan menggunakan fid bersih yang diusulkan di sini. Semua nilai dihitung menggunakan 10 evaluasi berjalan. Kami menyediakan API untuk meminta hasil yang ditunjukkan pada tabel di bawah ini langsung dari paket PIP.
Jika Anda ingin menambahkan nomor dan model baru ke papan peringkat kami, jangan ragu untuk menghubungi kami.
Set test digunakan sebagai distribusi referensi dan dibandingkan dengan gambar yang dihasilkan 10K.
Data 100% (tanpa syarat)
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 ( + Ada + Tuning) [Karras et al, 2020] | - † | - † | 8,20 ± 0,10 |
| StyleGan2 (+ADA) [Karras et al, 2020] | - † | - † | 9,26 ± 0,06 |
| StyleGan2 (Diff-Augment) [Zhao et al, 2020] [CKPT] | 9.89 | 9,90 ± 0,09 | 10,85 ± 0,10 |
| StyleGan2 (cermin-flips) [Karras et al, 2020] [CKPT] | 11.07 | 11,07 ± 0,10 | 12,96 ± 0,07 |
| styleGan2 (tanpa flips) [Karras et al, 2020] | - † | - † | 14,53 ± 0,13 |
| Autogan (config a) [Gong et al, 2019] | - † | - † | 21.18 ± 0,12 |
| Autogan (config b) [Gong et al, 2019] | - † | - † | 22,46 ± 0,15 |
| Autogan (config c) [Gong et al, 2019] | - † | - † | 23,62 ± 0,30 |
† Metode ini menggunakan set pelatihan sebagai distribusi referensi dan bandingkan dengan gambar yang dihasilkan 50k
Data 20%
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 12.15 | 12.12 ± 0,15 | 14.18 ± 0,13 |
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 23.08 | 23,01 ± 0,19 | 29,49 ± 0,17 |
Data 10%
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 14.50 | 14,53 ± 0,12 | 16,98 ± 0,18 |
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 36.02 | 35,94 ± 0,17 | 43,60 ± 0,17 |
Set test digunakan sebagai distribusi referensi dan dibandingkan dengan gambar yang dihasilkan 10K.
Data 100%
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 16.54 | 16,44 ± 0,19 | 18,44 ± 0,24 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 15.22 | 15.15 ± 0,13 | 16,80 ± 0,13 |
Data 20%
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 32.30 | 32.26 ± 0,19 | 34,88 ± 0,14 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 16.65 | 16,74 ± 0,10 | 18.49 ± 0,08 |
Data 10%
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 45.87 | 45,97 ± 0,20 | 46,77 ± 0,19 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 20.75 | 20,69 ± 0,12 | 23,40 ± 0,09 |
semua gambar @ 1024x1024
Nilai dihitung menggunakan gambar yang dihasilkan 50k
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih | Split referensi |
|---|---|---|---|---|
| StyleGan1 (config a) [Karras et al, 2020] | 4.4 | 4.39 ± 0,03 | 4,77 ± 0,03 | trainval |
| styleGan2 (config b) [Karras et al, 2020] | 4.39 | 4.43 ± 0,03 | 4,89 ± 0,03 | trainval |
| styleGan2 (config c) [Karras et al, 2020] | 4.38 | 4,40 ± 0,02 | 4,79 ± 0,02 | trainval |
| styleGan2 (config d) [Karras et al, 2020] | 4.34 | 4,34 ± 0,02 | 4,78 ± 0,03 | trainval |
| StyleGan2 (config e) [Karras et al, 2020] | 3.31 | 3,33 ± 0,02 | 3,79 ± 0,02 | trainval |
| styleGan2 (config f) [Karras et al, 2020] [CKPT] | 2.84 | 2.83 +- 0,03 | 3.06 +- 0.02 | trainval |
| StyleGan2 [Karras et al, 2020] [CKPT] | N/a | 2,76 ± 0,03 | 2,98 ± 0,03 | trainval70k |
140K - Gambar @ 256x256 (seluruh set pelatihan dengan flip horizontal) Gambar 70k dari set trainval70k digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| ZCR [Zhao et al, 2020] † | 3,45 ± 0,19 | 3,29 ± 0,01 | 3,40 ± 0,01 |
| StyleGan2 [Karras et al, 2020] † | 3,66 ± 0,10 | 3,57 ± 0,03 | 3,73 ± 0,03 |
| Pa-gan [Zhang dan Khoreva et al, 2019] † | 3,78 ± 0,06 | 3,67 ± 0,03 | 3,81 ± 0,03 |
| StyleGan2-1 [Karras et al, 2020] † | 3,88 ± 0,13 | 3,84 ± 0,02 | 3,93 ± 0,02 |
| Rotasi tambahan [Chen et al, 2019] † | 4,16 ± 0,05 | 4,10 ± 0,02 | 4,29 ± 0,03 |
| Dropout adaptif [Karras et al, 2020] † | 4,16 ± 0,05 | 4.09 ± 0,02 | 4,20 ± 0,02 |
| Norma spektral [Miyato et al, 2018] † | 4,60 ± 0,19 | 4,43 ± 0,02 | 4,65 ± 0,02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6,54 ± 0,37 | 6.19 ± 0,03 | 6,62 ± 0,03 |
† Dilaporkan oleh [Karras et al, 2020]
30K - gambar @ 256x256 (beberapa generasi bidikan)
Gambar 70k dari set trainval70k digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 6.16 | 6.14 ± 0,064 | 6.49 ± 0,068 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 5.05 | 5,07 ± 0,030 | 5.18 ± 0,032 |
10k - gambar @ 256x256 (beberapa generasi bidikan)
Gambar 70k dari set trainval70k digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 14.75 | 14,88 ± 0,070 | 16,04 ± 0,078 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 7.86 | 7,82 ± 0,045 | 8.12 ± 0,044 |
5k - gambar @ 256x256 (beberapa generasi bidikan)
Gambar 70k dari set trainval70k digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 26.60 | 26,64 ± 0,086 | 28.17 ± 0,090 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 10.45 | 10,45 ± 0,047 | 10,99 ± 0,050 |
1K - gambar @ 256x256 (beberapa generasi bidikan)
Gambar 70k dari set trainval70k digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 62.16 | 62.14 ± 0,108 | 64.17 ± 0,113 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 25.66 | 25,60 ± 0,071 | 27,26 ± 0,077 |
Data 100%
Gambar 50k dari set train digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50K.
| Kategori | Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|---|
| Gereja luar ruangan | StyleGan2 [Karras et al, 2020] [CKPT] | 3.86 | 3,87 ± 0,029 | 4,08 ± 0,028 |
| Kuda | StyleGan2 [Karras et al, 2020] [CKPT] | 3.43 | 3,41 ± 0,021 | 3,62 ± 0,023 |
| Kucing | StyleGan2 [Karras et al, 2020] [CKPT] | 6.93 | 7,02 ± 0,039 | 7.47 ± 0,035 |
LSUN CAT - gambar 30K (beberapa generasi bidikan)
Semua 1.657.264 gambar dari trainfull Split digunakan sebagai gambar referensi dan dibandingkan dengan 50k gambar yang dihasilkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 10.12 | 10,15 ± 0,04 | 10,87 ± 0,04 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 9.68 | 9,70 ± 0,07 | 10,25 ± 0,07 |
LSUN CAT - Gambar 10K (beberapa generasi bidikan)
Semua 1.657.264 gambar dari trainfull Split digunakan sebagai gambar referensi dan dibandingkan dengan 50k gambar yang dihasilkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 17.93 | 17,98 ± 0,09 | 18.71 ± 0,09 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 12.07 | 12,04 ± 0,08 | 12,53 ± 0,08 |
LSUN CAT - Gambar 5K (beberapa generasi bidikan)
Semua 1.657.264 gambar dari trainfull Split digunakan sebagai gambar referensi dan dibandingkan dengan 50k gambar yang dihasilkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 34.69 | 34,66 ± 0,12 | 35,85 ± 0,12 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 16.11 | 16.11 ± 0,09 | 16,79 ± 0,09 |
LSUN CAT - Gambar 1K (beberapa generasi bidikan)
Semua 1.657.264 gambar dari trainfull Split digunakan sebagai gambar referensi dan dibandingkan dengan 50k gambar yang dihasilkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 182.85 | 182.80 ± 0,21 | 185.86 ± 0,21 |
| StyleGan2-Diff-Agustment [Zhao et al, 2020] [CKPT] | 42.26 | 42,07 ± 0,16 | 43,12 ± 0,16 |
Anjing afhq
Semua 4739 gambar dari split train digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 19.37 | 19,34 ± 0,08 | 20.10 ± 0,08 |
| StyleGan2-1 [Karras et al, 2020] [CKPT] | 7.40 | 7.41 ± 0,02 | 7,61 ± 0,02 |
Afhq liar
Semua 4738 gambar dari split train digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 3.48 | 3,55 ± 0,03 | 3,66 ± 0,02 |
| StyleGan2-1 [Karras et al, 2020] [CKPT] | 3.05 | 3.01 ± 0,02 | 3.03 ± 0,02 |
Semua gambar 1944 dari train Split digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan Fid (dilaporkan) | Warisan Fid (direproduksi) | Fid bersih | Warisan ANAK (dilaporkan) 10^3 | Warisan ANAK (direproduksi) 10^3 | Membersihkan ANAK 10^3 |
|---|---|---|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 97.72 | 97,46 ± 0,17 | 98,35 ± 0,17 | 89.76 | 89,90 ± 0,31 | 92,51 ± 0,32 |
| StyleGan2-1 [Karras et al, 2020] [CKPT] | 15.71 | 15,70 ± 0,06 | 15,63 ± 0,06 | 2.88 | 2,93 ± 0,08 | 3.08 ± 0,08 |
Semua 1336 gambar dari train Split digunakan sebagai gambar referensi dan dibandingkan dengan gambar yang dihasilkan 50k.
| Model | Warisan Fid (dilaporkan) | Warisan Fid (direproduksi) | Fid bersih | Warisan ANAK (dilaporkan) 10^3 | Warisan ANAK (direproduksi) 10^3 | Membersihkan ANAK 10^3 |
|---|---|---|---|---|---|---|
| StyleGan2 [Karras et al, 2020] [CKPT] | 57.26 | 57,36 ± 0,10 | 65,74 ± 0,11 | 35.66 | 35,69 ± 0,16 | 40,90 ± 0,14 |
| StyleGan2-1 [Karras et al, 2020] [CKPT] | 18.22 | 18.18 ± 0,03 | 19,60 ± 0,03 | 2.41 | 2,38 ± 0,05 | 2,86 ± 0,04 |
Semua 140 gambar dari test split digunakan sebagai gambar referensi dan dibandingkan dengan 120 gambar yang diterjemahkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| Potong [Park et al, 2020] | 45.5 | 45.51 | 43.71 |
| Jarak [Benaim dan Wolf et al, 2017] dilaporkan oleh [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al, 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017] dilaporkan oleh [Park et al, 2020] | 77.2 | 77.20 | 75.17 |
| Sendiri [Benaim dan Wolf et al, 2017] dilaporkan oleh [Park et al, 2020] | 80.8 | 80.78 | 79.28 |
| GCGAN [Fu et al, 2019] dilaporkan oleh [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] dilaporkan oleh [Park et al, 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al, 2017] dilaporkan oleh [Park et al, 2020] | 140.0 | - † | 99.56 |
† Gambar yang diterjemahkan untuk metode ini secara intistif dibandingkan oleh [Park et al, 2020] menggunakan kompresi .JPEG. Kami melatih kedua metode ini menggunakan protokal yang sama dan menghasilkan gambar sebagai .png untuk perbandingan yang adil.
Semua 500 gambar dari test split digunakan sebagai gambar referensi dan dibandingkan dengan 500 gambar yang diterjemahkan.
| Model | Warisan-fid (dilaporkan) | Warisan-fid (direproduksi) | Fid bersih |
|---|---|---|---|
| Potong [Park et al, 2020] | 76.2 | 76.21 | 77.58 |
| Fastcut [Park et al, 2020] | 94.0 | 93.95 | 95.37 |
| GCGAN [Fu et al, 2019] dilaporkan oleh [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] dilaporkan oleh [Park et al, 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al, 2017] dilaporkan oleh [Park et al, 2020] | 123.4 | - † | 127.21 |
| Sendiri [Benaim dan Wolf et al, 2017] dilaporkan oleh [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| Jarak [Benaim dan Wolf et al, 2017] dilaporkan oleh [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
† Gambar yang diterjemahkan untuk metode ini secara intistif dibandingkan oleh [Park et al, 2020] menggunakan kompresi .JPEG. Kami melatih kedua metode ini menggunakan protokal yang sama dan menghasilkan gambar sebagai .png untuk perbandingan yang adil.
Torch-fidelity: Metrik kinerja kesetiaan tinggi untuk model generatif di pytorch.
TTUR: Dua aturan pembaruan skala waktu untuk pelatihan GANS.
LPIPS: Metrik Kesamaan Perseptual dan Dataset.
Semua materi dalam repositori ini tersedia di bawah lisensi MIT.
Inception_pytorch.py berasal dari implementasi FID Pytorch yang disediakan oleh Maximilian Seitzer. File -file ini awalnya dibagikan di bawah lisensi Apache 2.0.
Inception-2015-12-05.PT adalah model Torchscript dari jaringan awal terlatih-V3 oleh Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, dan Zbigniew Wojna. Jaringan awalnya dibagikan di bawah lisensi Apache 2.0 pada repositori model TensorFlow. Pembungkus Torchscript disediakan oleh Tero Karras dan Miika Aittala dan Janne Hellsten dan Samuli Laine dan Jaakko Lehtinen dan Timo Aila yang dirilis di bawah Lisensi Kode Sumber NVIDIA.